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Introduction 


TANAGRA est un logiciel gratuit d'exploration de données (DataMining) destiné à 
l'enseignement et à la recherche et à l'enseignement créé en 2003. II implémente une série de 
méthodes de fouille de données issues du domaine de la statistique exploratoire, de l'analyse 
de données, de l'apprentissage automatique et des bases de données. 


Par rapport à ses concurrents TAN AGRA à selon moi quatre avantages majeurs: 


1. L'interface est extrêmement simple et sobre et nécessite quasiment zéro effort pour 
comprendre la logique. 


2. Les méthodes statistiques et leurs résultats respectifs sont clairement nommés selon 
l'usage par les spécialistes de la statistique. 


3. La documentation est bien fournie aussi bien en anglais qu'en français avec des 
annexes accessibles à ceux qui ont des connaissances universitaires en mathématiques. 


4. La rapidité de traitement d'une grosse masse de données qui en terme de performance 
vaut largement la concurrence gratuite (KNIME, Orange, R, RapidMiner, SIPINA, 
WEKA) ou payant (Oracle, MS SQL Server, SPSS, Statistica) d'après les tests 
effectués par l'auteur du logiciel (le logiciel est sobre et codé selon les règles de l'art ce 
qui accapare moins de mémoire). 


5. Sa gratuité et le fait que le code source soit disponible à tous. 


C'est un projet ouvert au sens qu'il est possible à tout chercheur d'accéder au code, d'ajouter 
ses propres algorithmes et de diffuser, toujours gratuitement, le logiciel modifié. 


Tanagra est diffusé depuis décembre 2003. Il est compilé pour la plate-forme WIN32 mais 1l 
est possible de le faire fonctionner sous d'autres systèmes (par ex. avec WINE sous linux). 


Précisions sur la licence de TANAGRA {voir le détail de la licence lors de l'installation). Le 
logiciel TANAGRA est développé à titre personnel par Ricco Rakotomalala. Il en a la 
propriété exclusive. Un logiciel est une oeuvre de l'esprit au sens du code de la propriété 
intellectuelle (Article L.112-2), exactement comme les ouvrages. Ricco Rakotomalala 
s'engage à rendre la version complète de TANAGRA indéfiniment gratuite sans aucune 
restriction. Le code source sera toujours librement accessible en ligne. Si une entité 
quelconque introduit des contraintes quant à l'accès au logiciel (ex. nécessité de 
s'enregistrer pour télécharger ; versions volontairement bridées avec des promesses de 
fonctionnalités étendues sur une variante améliorée payante ; code source non publié ; 
incorporation dans un package commercial ; ou que sais-je encore...), vous êtes face à une 
distribution illicite. 


L'utilisation du logiciel est totalement libre, dans quelque contexte que ce soit, y compris dans 
le cadre d'une activité commerciale. Si vous souhaitez citer TANAGRA dans vos travaux de 
recherche, voici la référence à utiliser : Ricco Rakotomalala, ""TANAGRA : un logiciel 
gratuit pour l'enseignement et la recherche", in Actes de EGC'2005, RNTI-E-3, vol. 2, 
pp.697-702, 2005. 
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Logiciels de Data Mining 


Tanagra est certes très complet pour la majorité des besoins mais 1l ne peut convenir 
cependant qu'à des situations où: 


1. il n'est pas nécessaire d'avoir des résultats en temps réel sur des serveurs de bases de 
données 


2. l'utilisation de scripts d'automatisation de post ou prétraitement n'est pas nécessaire 
(pas de macros par exemple) 


3. Il n'y pas de support technique pour répondre aux questions (du moins à ma 
connaissance) 


et c'est aussi le cas pour d'autres logiciels gratuits de Data Mining comme S-Plus de Insight, 
Alice de Isoft, Predic de Neuralware, R (version gratuite de S-Plus), Weka et RapidMiner 
(sauf changement entre le moment où ces lignes ont été écrites et le moment où vous les 
lisez). 


Cependant en matière de quantités de techniques, d'ergonomie et de rapidité d'enseignement, 
Tanagra est selon mon expérience personnelle loin devant pour l'enseignement en entreprise 
et à l'université. 


Sinon, pour avoir testé sur un jeu d'un peu plus de 1.1 million de données que j'utilise dans le 
cade des mes formations (traitements effectués souvent en moins de dix secondes), nous 
pouvons très probablement sans problèmes utiliser Tanagra pour faire des analyses sur des 
bases de données de l'ordre de la dizaine de millions de données (par extrapolation au 
pouce...). 


Sinon, les logiciels payants les plus connus en ce tout début de 21°" siècle seraient: SPSS 
Clementine, SAS Enterpise Miner, Statistica Data Miner, S-Plus Insightful Miner, Matlab et 
KXen ou RapidMiner si l'on fait appel aux services de consulting et de déploiement + 
installation. 
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Avertissements 


Le but de ce support a pour but de mettre en pratique les démonstrations mathématiques 
théoriques effectuées lors des cours de statistiques et de méthodes numériques. 


Le contenu du présent support est élaboré par un processus de développement par lequel des 
experts de la gestion de projets parviennent à un consensus. Ce processus qui rassemble des 
participants bénévoles recherche également les points de vue de personnes intéressées par le 
sujet de cet ouvrage. En tant que responsable du présent support, j'assure l'administration du 
processus et Je fixe les règles qui permettent de promouvoir l'équité dans l'approche d'un 
consensus. Je me charge également de rédiger les textes, parfois de les tester/évaluer ou de 
vérifier indépendamment l'exactitude/solidité ou l'exhaustivité des informations présentées. 


Je décline toute responsabilité en cas de dommages corporels, matériels ou autres de quelque 
nature que ce soit, particuliers, indirects, accessoires ou compensatoires, résultant de la 
publication, de l'application ou de la confiance accordée au contenu du présent support. Je 
n'émets aucune garantie expresse ou implicite quant à l'exactitude ou à l'exhaustivité de toute 
information publiée dans le présent support, et ne garantit aucunement que les informations 
contenues dans cet ouvrage satisfassent un quelconque objectif ou besoin spécifique du 
lecteur. Je ne garantis pas non plus les performances de produits ou de services d'un fabricant 
ou d'un vendeur par la seule vertu du contenu du présent support. 


En publiant des textes, il n'est pas dans l'intention principale du présent support de fournir des 
services de spécialistes ou autres au nom de toute personne physique ou morale ni pour mon 
compte, ni d'effectuer toute tâche devant être accomplie par toute personne physique ou 
morale au bénéfice d'un tiers. Toute personne utilisant le présent support devrait s'appuyer sur 
son propre jugement indépendant ou, lorsque cela s'avère approprié, faire appel aux conseils 
d'un spécialiste compétent afin de déterminer comment exercer une prudence raisonnable en 
toute circonstance. Les informations et les normes concernant le sujet couvert par le présent 
support peuvent être disponibles auprès d'autres sources que le lecteur pourra souhaiter 
consulter en quête de points de vue ou d'informations supplémentaires qui ne seraient pas 
couverts par le contenu du présent site Internet. 


Je ne dispose (malheureusement...) d'aucun pouvoir dans le but de faire respecter la 
conformité au contenu du présent ouvrage, et je ne m'engage nullement à surveiller n1 à faire 
respecter une telle conformité. Je n'exerce (à ce jour...) aucune activité de certification, de test 
ni d'inspection de produits, de conceptions ou d'installations à fins de santé ou de sécurité des 
personnes et des biens. Toute certification ou autre déclaration de conformité en matière 
d'informations ayant trait à la santé ou à la sécurité des personnes et des biens, mentionnée 
dans le présent support, ne peut aucunement être attribuée au contenu du présent support et 
demeure sous l'unique responsabilité de l'organisme de certification ou du déclarant concerné. 
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Objectifs 


J'ai tenté de mettre les exemples dans l'ordre de difficulté croissant et j'espère avoir atteint cet 
objectif pédagogique. Les premiers exemples sont vraiment élémentaires (ils ne dépassent pas 
le niveau du BAC) et faisables avec un simple tableur mais ils permettent au moins de se faire 
la main sur les manipulations courantes du logiciel. 


Actuellement seulement 9 composants de Data Mining sur les 180 disponibles dans le 
logiciel sont présentés dans ce support (sachant que 170 sont vraiment des techniques de 
fouilles de données). Je rédige un exemple à peu tous les 3 mois. depuis le 30 Avril 2011 
sachant que je me limite à présenter uniquement les techniques pour lesquelles la 
démonstration mathématique détaillée et pédagogique (soit une trentaine à ce jour) se trouve 
sur déjà sur mon site www.sciences.ch (ou que j'ai déjà rédigée mais pas encore eu le temps 
de publier en ligne sur le site). Bien évidemment, si des lecteurs (étudiants / professeurs / 
passionnés) veulement m'aider à rédiger les démonstrations mathématiques. toute 
contribution/aide est la bienvenue pour compléter les démonstrations mathématiques 
détaillées manquantes! 


Voici ci-dessous la liste des techniques et composants disponibles sur Tanagra. Celles qui 
sont précédées d'un Ÿ ont été étudiées dans les détails dans le cours théorique et elles sont (ou 
seront) détaillées dans le présent support (pour les autres, 1l me manque les démonstrations 
mathématiques à un niveau de rigueur pouvant être considéré comme satisfaisant): 


Data visualisation 

Ÿ > Correlation scatterplot 
V ÉExport dataset 

V4 LE Scatterplot 

Ÿ LE Scatterplot with label 
V4 É.: View multiple scatterplot 


Statistics 


EI 4NOVA Randomized Blocks 
43 Bartlett's test 
T Brown - Forsythe's test 


[4 Box's Ai Test 
V <3Fishers test 


[M Group characterization 

Ÿ Eh Group exploration 

[ Hotelling's T2 

[ Hotelling's T2 Heteroscedastic 
23 Levene's test 

Y EF Linear correlation 

VA LÉiiore Univariate cont stat 
Ÿ À Hormality Test 

Y lil, One-way ANOVA 

[5 One-way MANOVA 
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”. 23 Paired T-Test 


lr Paired V-Test 
* LÉ Partial Correlation 


VEË Semi-partial Correlation 


Y Lau T-Test 

lu T-Test Unequal Variance 
 EÆUnivariate continuous stat 
ll Univariate discrete stat 

Y :%Univariate Outlier Detection 
ll, Welch 4NOVA 


Nonparametric statistics 


(a: Ansari-Bradley Scale Test 
Categoricalr 

ÉtilCochran's Q-test 

Ÿ EContingency Chi-Square 

Y ÉÉlFriedman's ANOVA by Ranks 
“ax FYTH f-way ANOVA (Fisher-Yates-Terry-Hoeffding) 
Goodman Kruskal Gamma 
Goodman-Kruskal Lambda 
Goodman-Kruskal Tau 

Kendall Tau-b 

[] Kendall Tau-c 

# [fil Kendalls Concordance 
#Kendalls tau 

(S: Klotz Scale Test 

Uk Kruskalfallis 1-way ANOVA 


V LT K-5 2-sample test 
Ÿ Lil Mann-Whitney Comparison 


 mledian test 


IS Mood Scale Test 

F Partial Theil U 

né :Ë Sign Test 

Sommers d 

Theil LU 

a Van der Waerden 1-way ANOVA 


 =*Wilcoxon Signed Ranks Test 


Instance selection 
© Continuous select examples 


4 # Discrete select examples 
V4 %, Recover examples 
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Y ÆRule-based selection 
À Sampling 

# Select first examples 
# Stratified sampling 


Feature construction 
Ÿ P0_1_Binarize 

V4 À\ Binary binning 

ul Cont to disc 

ul Disc to cont 

Y kEaFreq Disc 
 XhEagWidth Disc 

Ÿ R£ Formula 


ak MDLPC (Minimum Description Length Principle Cut) 
2% Resid{l Scores 
V < Standardize 


y L<Trend 


Feature selection 


J7, Backward-logit 
HÎCFS fitterins (Correlation Feature Selection) 
f LA Define status 


HUFCEF filtering (Fast Correlation Based Filter) 
H Feature ranking 


+ Fisher filtering 

T° Forward-logit 

FAIFS filterins (Metamaterial Isoindex Filtering Selection) 
HIMODTree fitterine (Multivalued Oblivious Decision Tree) 
[:: RetiefF 

[Remove constant 


l* Stepdisc 


Regression 


F | # Backward Elimination Reg 
&,C-RT Regression tree 

Y L, DfBetas 

L4 Espilon SUR 

Ÿ < Forward Entry Regression 
LE Multiple linear regression 
L£ Nu SUR 

LE, Outlier Detection 

V4 LR Regression Assessment 
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Ÿ À, Regression tree 


É£ Simultaneous Regression 
Factorial analysis 


F2 4FDM 

ln. Bootstrap Eigenvalues 

# Canonical Discriminant Analysis 
Ÿ MCorrespondence Analysis 


LkŸ Discriminant Correspondence Analysis 
Factor rotation 
GE Harris Component änalysis 


4 A] Muttiple Correspondence Analysis 


EX NIPALS (Nonlinear Iterative Partial Least Squares) 
À Parallel Analysis 

lb, ys 

sf LC Principal Component Analysis 


Æ Principal Factor 4nalysis 


PLS 


FL PLS Conf. Interval (Partial Least Squares Confidence) 
PL5 PLS Factorial 
VAE PLS Regression 


PS PLS Selection 


AL PLSR (exécute PLS Factorial et le PLS Regression en même temps) 


Clustering 


CT 


SE CTP (Clustering Tree Post-prunning) 
IÆREN-Clusterine (Expectation-Maximization clustering) 
(Se EM-Selection 

Y SMHAC (Hierarchical Clustering) 

V4 le K-Means 

BE Kohonen-SOii 


Pa LvQ (Learning Vector Quantized) 
EX Neighborhood Graph 
& VARCLUS 


ÉTVARHCA (Variable Hierarchical Clustering Analysis) 
[4 VäRKiteans 


SPV (Support Vector) Learning 

4 Binary logistic regression 

#3, C4.5 

ME C-PLS 

# C-RT 

SsCS-CRT (Cost Sensitive Classification Regression Tree) 
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A,CS-MC4 (Cost Sensitive Missclassification Cost Matrix) 
Éc-svc 

E, Decision List 

Y #10 

É K-NN (K Nearest Neighbor) 

É# Linear discriminant analysis 

te Log-Ree TRIRLS 

Se iultilayer perceptron 

-=lultinomial Logistic Regression 

Y MmuNaive baves 

f6 Naive bayes continuous 

B£ PLS-DA (Discriminant Analysis) 

Esñ PLS-LDA (Linear Discriminant Analysis) 
[te Prototype-NN 

pe Radial basis function 


Rad Tree 
= Rule Induction 
LEE Su 


Meta SPV (Support Vector) Learning 
De] rcing [ârc-xd] 
[+] Baggine 
2 Boostine 
W Cost Sensitive Baggine 


[Cost Sensitive Learning 
bé AultiCost 
D] Supervised Learning 


SPV (Support Vector) Learning assessment 


HrABias-variance decomposition 
HHBootstrap 

H'Cross-vatidation 

7? Hosmer Lemeshow Test 
HLeave-One-Out 

j  Logistic Resression Residuals 
PATest 

HÂTrain-test 


Scoring 


#7 Lift curve 

Il Posterior Prob 

TX Precision-Recall curve 
LT Reliability Diagram 

#2 Roc curve 

l! Scoring 
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Association 
LE à priori 

FE 4 priori MR 
4 priori PT 


si Assoc Outlier 
< Frequent Itemsets 


ÆE Spv âssoc Rule 
 Spv ässoc Tree 
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Exercice 1.: Import et visualisation des données *.txt 
Tanagra V1.4.36 


A partir du fichier texte suivant se trouvant dans votre dossier d'exercice: 


] Ventes.tat 


Contenant des données séparées par des tabulations (Tanagra impose les tabulations!): 


B Ventes.txt - Bloc-notes | - [OI x! 
Fichier Edition Format fichage 2 


Activité N° de Commande Date de commande 
Assurances 1 03.01.2000 Compaq Presario 100 
Machines/outils 2 03.01.2000 IBM 500 2 
Éducation 3 03.01.2000 AST Intel 150 
Éducation 4 03.01.2000 AST Intel 200 
Banques 5 04.01.2000 Compaq Presario 100 
Assurances 6 04.01.2000 AST Intel 150 
Éducation 04.01.2000 AST Intel 200 
Alimentaire 04.01.2000 IBM 500 4 
Construction 04.01.2000 Compaq Presario 
Pharmaceutique 04.01.2000 IBM 500 2 
Distribution 05.01.2000 AST Intel 200 
Machines/outils 05.01.2000 Compaq Presario 
Machines/outils 05.01.2000 IBM 500 6 
Construction 05.01.2000 AST Intel 150 
Distribution 05.01.2000 Compaq Presario 
Éducation 05.01.2000 AST Intel 200 
Éducation 05.01.2000 Compaq Presario 
Construction 05.01.2000 AST Intel 200 
Construction 05.01.2000 Compaq Presario 
Pharmaceutique 06.01.2000 IBM 500 7 
Machines/outils 06.01.2000 AST Intel 150 
Construction 06.01.2000 Compaq Presario 
Assurances 06.01.2000 IBM 500 3 
Construction 06.01.2000 AST Intel 200 
Éducation 07.01.2000 AST Intel 150 
Machines/outils 07.01.2000 AST Intel 150 
Pharmaceutique 07.01.2000 IBM 500 8 
Distribution 2 07.01.2000 AST Intel 200 
Assurances 07.01.2000 Compaq Presario 
Construction 07.01.2000 AST Intel 200 
Banques 31 10.01.2000 AST Intel 150 PA 
Alimentaire 32 10.01.2000 Compaq Presario 
Éducation 10.01.2000 IBM 500 3 
Alimentaire 10.01.2000 IBM 500 7 
Construction 11.01.2000 AST Intel 200 
Éducation 11.01.2000 Compaq Presario 
Distribution 11.01.2000 AST Intel 200 
Construction 11.01.2000 IBM 500 4 
Pharmaceutique 11.01.2000 AST Intel 150 
Éducation 12.01.2000 Compaq Presario 
Construction 12.01.2000 AST Intel 200 
Construction 12.01.2000 AST Intel 150 
Construction 12.01.2000 IBM 500 6 
Alimentaire 12.01.2000 AST Intel 200 
Assurances 12.01.2000 AST Intel 200 
Éducation 13.01.2000 AST Intel 150 


Effectuez les opérations nécessaires pour visualisez les données contenues dans ce fichier 
directement depuis Tanagra. 


Ouvrons Tanagra: 
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Del TANAGRA (Ricco RAKOTOMALALA) 


Die 
JE 
Data mining diagram (empty) 


Allez dans le menu File/New..…: 


Choose your dataset and start download 


Default title 


CiDocuments and SettingslisoziMes documentsientes|tdm E 


C\Documents and SettingslisoziMes documentsientes tt F2 


Puis entrez un nom pour le diagramme (par exemple VisualisationDonnees) ensuite un nom 
et un chemin pour le fichier Tanagra (*.tdm: Tanagra Diagram) et enfin allez cherchez la 
source de données dans le champ Dataset comme visible sur la capture ci-dessus. 


Validez par OK et vous aurez alors: 
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TANAGRA 1.4.36 - [Dataset (Ventes.txt)] MEET 


181 xl 


Database : C:\Documents and Settings\isoz\Mes documents\Ventes,. txt 


| 
Download information 


Datasource processing 
Computation time Oms 
Allocated memory 16 KB 


Dataset description 


10 attribute(s) 
109 example(s) 


Attribute Category Informations 
N° Client Continue = 
Activité Discrete 8 values 
N° de Commande Continue 
Date de commande  Discrete 21 values 


Article Discrete 4 values 
Quantité Continue 
Prix par pièce Continue 
Rabais* Discrete 4 values 


Data visualization | 


+ Correlation scatterplot 
Export dataset 
# Scatterplot 


 Scatterplot with label 
Fiew dataset 
É: Vieur multiple scatterplot 


Depuis la catégorie des composants Components se trouvant dans la partie inférieure du 
logiciel, glissez l'opérateur nommé View dataset de la catégorie Data visualization: 


Fi view dataset 


sur le Dataset afin d'obtenir: 


TANAGRA 1.436 - [Dataset (Ventes.txt)] 


Default title 


Jataset (Ventes 


L View dataset 1 


Ensuite faites un clic droit sur l'opérateur View dataset 1: 
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TANAGRA 1.4.36 - [Dataset (Ventes.txt)] 


Default title 


et cliquez sur Execute. Refaites la même manipulation ensuite puis cliquez sur View. Vous 
aurez alors un visuel des données du fichier: 


TANAGRA 1.4.36 - [View dataset 1 [All] (109 examples, 10 attributes)] 


Default title 
EI Dataset (Ventes.txt] 
LE 
Data visualization 
Correlation scatterplot yatterplot with label 
Export dataset View dataset 
LË Scatterplot EE: Vieur multiple scatterplot 
Lo) 
bus 
— 
£ 
[D] 
oO 
= 
— 
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Exercice 2.: Import et visualisation des données *.xls 
Tanagra V1.4.36 


A partir du fichier texte suivant se trouvant dans votre dossier d'exercice: 


Æ} Ventes. xls 


Contenant les mêmes données que le fichier *.txt précédent: 


À CEE 
A B C E F G H I i] K L M 
NF Client Activité NF de Commande Date de commande Article Quantité Prix par pièce Rabais®e Prix total avec rabais Facture payée 

100 Assurances 03.01.2000 Compaq Presario 100 12 1650 1.50% 19503 Oui 
123 Machines Outis 03.01.2000 IBM 500 2 2299 0.00% 4598 Oui 
109 Éducation 03.01.2000 AST Intel 150 2690 _ 0.00% 13450 Oui 
104 Éducation 03.01.2000 AST Intel 200 3190 0.00% 9570 Oui 
117 Banques 04.01,2000 Compaq Presario 100 1650 1.50% 2128.25 Oui 
103 Assurances 04.0 F000]AST Intel 150 2690 _ 0.00% 5380 Oui 
104 Éducation 04.01.2000 AST Intel 200 3190 0.00% 6380 Oui 
111 Alimentaire 04.01.2000 IBM 500 2299 0.00% 9196 Oui 
113 Construction 04.01.2000 Compaq Presario 100 1650 0.00% 6600 Oui 
116 Pharmaceutique 04.01.2000 IBM 500 2299 0.00% 4598 Oui 
110 Distribution 05.01.2000 AST Intel 200 3190 1.50% 18852.9 Oui 
112 Machines Outis 05.01.2000 Compaq Presario 100 1650 1.50% 9751.5 Oui 
123 Machines/Outis 05.01.2000 IBM 500 2299 1.50% 13587.09 Oui 
113 Construction 05.01.2000 AST Intel 150 2690 _ 0.00% 8070 Oui 
115 Distibution 05.01.2000 Compaq Presario 100 1650 1.50% 13002 Oui 
124 Éducation 05.01.2000 AST Intel 200 3190 1.50% 251372 Oui 
124 Éducation 05.01.2000 Compaq Presario 100 1650 1.50% 17877.75 Oui 
106 Construction 05.01.2000 AST Intel 200 3190 1.50% 34563.65 Oui 
101 Construction 05.01.2000 Compaq Presario 100 1650 1.50% 22753.5 Non 
116 Pharmaceutique 06.01.2000 IBM 500 2299 1.50% 15851605 Non 
112 Machines/Outis 06.01.2000 AST Intel 150 2690 1.50% 15897.9 Oui 

06.01.2000 Compaq Presario 100 1650 3.00% 36811.5 Oui 

06.01.2000 IBM 500 2299 0.00% 6897 Oui 

06.01.2000 AST Intel 200 3190 0.00% 6380 Oui 


un 


cl 
2 
3 
4 
5 
6 
7 
8 
9 


co OO OO 1 d 1 1 D LU 


Ouvrons Tanagra: 
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Die 
JE 
Data mining diagram (empty) 


Allez dans le menu File/New… 


Choose your dataset and start download 


Default title 


CiDocuments and SettingslisoziMes documentsientes.tdml E 


C\Documents and SettingslisoziMes documentsiWentes.xls F2 


Puis entrez un nom pour le diagramme (par exemple VisualisationDonnees) ensuite un nom 
et un chemin pour le fichier Tanagra (*.tdm: Tanagra Diagram) et enfin allez cherchez la 
source de données dans le champ Dataset comme visible sur la capture ci-dessus. 


Validez par OK et vous aurez alors: 
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TANAGRA 1.4.36 - [Dataset (Ventes.xls)] _[#[x| 
151 xl 


Default title 


Database : C:\Documents and Settings\isoz\Mes documents \Ventes.xis 


| 
Download information 


Workbook information 
Number of sheets 1 
Selected sheet  Dataset 
Sheet size 110 x 10 
Dataset size 110 x 10 

Datasource processing 
Computation time  63ms 
Allocated memory 16KB 


Dataset description 


10 attribute(s) 
109 example(s) 
Attribute Category Informations 
N° Client Continue 
activité Discrete 8 values 
N° de Commande Continue w _— 


Data visualization 
Correlation scatterplot  Scatterplot with label 
Export dataset Fiew dataset 
Ë Scatterplot E View multiple scatterplot 


Depuis la catégorie des composants Components se trouvant dans la partie inférieure du 
logiciel, glissez l'opérateur nommé View dataset de la catégorie Data visualization: 


Fview dataset 


sur le Dataset afin d'obtenir: 


Default title 


: View dataset 1 


Ensuite faites un clic droit sur l'opérateur View dataset 1: 


Default title | 


et cliquez sur Execute. Refaites la même manipulation ensuite puis cliquez sur View. Vous 
aurez alors un visuel des données du fichier: 
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TANAGRA 14.36 - [View dataset 1 [Al] (109 examples, 10 attributes)] 


] View dataset 1 


Data visualization 
Correlation scatterplot  Scatterplot with label 
Export dataset Fiew dataset 
 Scatterplot É: Vieur multiple scatterplot 
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Exercice 3.: Installation de l'add-in MS Excel 
Tanagra V1.4.36 


La macro complémentaire (« add-in » en anglais) fanagra.xla participe grandement à la 
diffusion du logiciel Tanagra. Le principe est simple, il s’agit d’intégrer un menu Tanagra 
dans Excel. Ainsi l’utilisateur peut lancer les calculs statistiques sans avoir à quitter le tableur. 
Pour simple qu’elle soit, cette fonctionnalité facilite le travail du data miner. Le tableur est un 
des outils les plus utilisés pour la préparation des données. 


Nous ouvrons dans MS Excel 2010 pour aller faire un clic droit sur les rubans et en 


sélectionnant dans le menu contextuel qui apparaît l'option Personnaliser la barre d'outils 
Accès rapide: 


Ge]! Li 


Accueil => - = ie Dunes Révision Affichage Compléments & Q 


| 


4! 


Ci Insérer » Z-A : 
| # Afficher la barre d'outils Acces rapide sous le ruban À 7 4 gi 
— Là Le 3 Supprimer » m + # 
Colier Personnaliser le Ruban : tie | ns __ Trieret Rechercher et 
* Ÿ E d dei Format * 27 filtrer” sélectionner » 
RME CUCEREERR Options Excel 
| B5 v 
k 


Général . u L ù 
à Permet d'afficher et de gérer les compléments Microsoft Office. 


Classeur1 Farnutes 
A i Vérificabon Compléments F1 
1 Enrégistremen Hom + Emplacement Type 
2 Langue . = : 
Qutils pour l'euro C\..rotaolxlam Complément Excel 
3 Ootions avance: Tanagra Ci..Tanagraxla Complément Excel 
à K 
Personnalis® 12 Ruban sil ) 
[s] Complément: Outils pour l'euro 
6 Accès rapide Éditeur 
RER Compatibilité : Aucune information de compatibilité disponible 
! | | Emplacement: CProgram Files\Microsoft Office, Officel4\Lbraneurotoolxlam 
8 Centre de gestion de la confidentialité 
Description: Conversion et mise en forme pour l'euro 
9 
10 = — 
11 Gérer: Compléments Excel | 
12 
13 
14 
1115 = 
Prêt | JE EU 100% (=) Ù (+) 


Dans la boîte de dialogue qui apparaît, nous cliquons sur la partie gauche sur Compléments 
et sur la partie droite sur Atteindre: 


21/145 


Microsoft Excel S © ZX 


CG Vincent ISOZ 


TANAGRA (Ricco RAKOTOMALALA) 


ormules 


Outils pour l'euro 
fe ee Conversion et mise en forme pour l'euro 
Enregistrement 
Options avancé 


Personnaliser Fa = 
Send to Bluetooth 


Cp JE 
CeMre de gestion de la confidentialité Complément: Acrobat PDFMaker Office Cl 
Ressoyces Éditeur: Adobe Systems, Incorporat 


Emplacement: C:\Program Files\Adobe,Ac 
POFMCOfficeAddin.dil 


Desciiption: Acrobat PDFMaker Office CÜ 


Gérer: | Compléments Excel [x] 


Cox] Came ) 


Viens alors la boîte de dialogue des Macros complémentaires. Il faut cliquer sur le bouton 
Parcourir et allez chercher Tanagra.xla sur le chemin C:\Programmes\Tangra. 


Il faut ensuite valider trois fois par OK pour voir l'add-in Tanagra apparaître dans le ruban 
Compléments: 


Compléments 


Pour voir comment cet add-in fonctionne, nous ouvrons le fichier: 
M) Ventes. xls 


et nous cliquons sur Execute Tanagra: 
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F4 Ventesxs [Mode de compatibilité] - Microsoft Excel SE x 
L richier | Accueil Insertion Mise en page Formules Données Révision Affichage Développeur Compléments & (?] © E x 
88 Mindjet MindManager æ 
Tanagra 
Commandes de menu Commandes de la barre d'outils 
CR FENEEES 
Ventes MA - f| N° Client » 


I | J K L M 
1316 Pharmaceutique 85 25.01.2000 Compaq Presario 100 21 1650 3.00% 336105 Non 
105 Banques 86 25.01.2000 Compaq Presario 100 19 1650 3.00% 30409.5 Non 
105 Banques 87 25.01.2000 IBM 500 6 2299 1.50% 13587.09 Non 
112 Machines/Outils 88 26.01.2000 AST Intel 200 2 3190 0.00% 6380 Non 
122 Distribution 89 26.01.2000 AST Intel 200 8 3190 1.50% 251372 Non 
102 Machines/Outils 90 BOUT E secute T'anagra Fs51.605 Non 


10760 Non 
8250 Non 
25137.2 Non 
15950 Non 
3587.09 Non 


103 Assurances 96 27.01 - 11495 Non 
107 Machines/Outils 97 28.01.2000 AST Intel 150 6 2690 1.50% 15897.9 Non 
123 Machines/Outils 98 28.01.2000 Compaq Presario 100 6 1650 1.50% 9751.5 Non 
109 Éducation 99 28.01.2000 Compaq Presario 100 31 1650 400% 49104 Non 
101 Construction 100 28.01.2000 Compaq Presario 100 5 1650 0.00% 8250 Non 
104 Éducation 101 28.01.2000 IBM 500 2 2299 000% 4598 Non 
123 Machines/Outils 102 28.01.2000 AST Intel 200 6 3190 1.50% 188529 Non 
106 Construction 103 28.01.2000 Compaq Presario 100 11 1650 1.50% 17877.75 Non 
115 Distribution 104 28.01.2000 IBM 500 3 2299 000% 6897 Non 
117 Banques 105 28.01.2000 AST Intel 150 3 2690 0.00% 8070 Non 
108 Pharmaceutique 106 31.01.2000 Compaq Presario 100 15 1650 1.50% 24378.75 Non 
102 Machines/Outils 107 31.01.2000 AST Intel 200 4 3190 0.00% 12760 Non 
118 Éducation 108 31.01.2000 IBM 500 3 2299 0.00% 6897 Non 
119 Éducation 109 31.01.2000 AST Intel 150 2 5380 Non 


4» W| Dataset #92 


et nous sélectionnons la plage du tableau. Nous validons par OK ce qui va faire ouvrir 
Tanagra avec le datamart chargé: 


TANAGRA 14.36 - [D an3A. txt)] 


Database : C:\DOCUME-1\isoz\LOCALS-1\Tempitangä.txt 


Download information 


Datasource processing 
Computation time 16 ms 
ällocated memory 16 KB 


Dataset description 


10 attribute(s) 
109 example(s) 


Article Discrete 4 values 
Quantité Continue - 
Prix par pièce Continue - 
Data visualization 
Correlation scatterplot =View multiple scatterplot 
Export dataset 
 Scatterplot 
 Scatterplot with label 
View dataset 


et ensuite y'a plus qu'à... 
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Exercice 4.: Statistiques élémentaires univariées continues 
Tanagra V1.4.36 


Toujours à partir du même fichier Ventes.xls nous souhaiterions générer de petites statistiques 
univariées continues élémentaires. 


Pour cela nous rajoutons d'abord un sélecteur Define status de l'onglet Feature Selection ou 
de la barre de menu du logiciel (cela dépend de la version.….): 


Components 


Data visualization | Statistics | Nonparametric statistics | Instance selection | Feature construction | | Feature selection | 
PLS | Clustening | Spv learning | Meta-spv learning | Spv learning assessment | Scoring | 


[ Backward-logit H Fisher filtering [Remove constant 


AI CFS fitterine X° Forward-logit #k, Runs filtering 
N FE AUFS filterine lé Stepdisc 
IH FCBF filterine Hi mo0Tree fittering 


Hi Feature ranking IE ReliefF 


Ce qui nous donne: 


E Dataset (Ventes.txt] 
FF View dataset 1 
L. ENT Define status 1 


Nous faisons un clic droit sur cet sélecteur pour aller dans les paramètres: 


E Dataset (Ventes.txt] 
…#% Define status 1 


View dataset 1 


#écute 
View 


ce qui fait apparaître la boîte de dialogue suivante: 
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Define attribute statuses 


C N° Client Prix total avec rabais 
D âctivité 

C N° de Commande 
D Date de commande 
D âtticle 

C Quantité 


C Prix par pièce 
D Rabais% 
[ 


D Facture payée 


où nous avons sélectionné la variable continue (d'où le C en bleu à l'opposé des variables 
discrètes) et nous validons par OK. 


Ensuite nous rajoutons un opérateur Univariate continuous stat de l'onglet Statistics: 


(EI ANOV& Randomized Blocks (u] Group characterization LÉ Linear correlation 22 Paired T-Test Lu T-Test Unequal Variance 
EE Bartlett's test Group exploration LÉore Univariate cont stat Ur Paired V-Test i 


Hill Univariate discrete stat 


cè 1 Hotelling's T2 #4 Normality Test LÉ Partial Correlation 
ES Brown - Forsythe's test le Hotelling's T2 Heteroscedastic DIN One-way ANOVA EË Semi-partial Correlation 2x Univariate Outlier Detection 


ET Fishers test Tlevene’s test Le One-way HANOVA Liu T-Test li; Welch ANOVA 


_ Univariate continuous stat 
Description 

Descriptive statistics on continuous input attiibutes. 

Precondition 


One or more continuous attributes must be available in the dataset. 
The continuous attributes to be described must be set as INPUT. 


Target attribute(s] 
None. 


Input attribute(s) 

One or more continuous attributes to be described. 
Postcondition 

None. 
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pour avoir: 


E Dataset (Ventes.txt) 
L View dataset 1 
E-*% Define status 1 


Default title 


et nous faisons un clic droit Execute: 


E Dataset (Ventes.txt] 
ml View dataset 1 
GB Define status 1 


et ensuite un clic droit View: 


Default title 


E Dataset (Ventes.txt] 


br View dataset 1 


B-Fi Define status 1 


ie ES Univariate continuous stat 1 
Parameters. 


Execute 


ce qui nous donne les statistiques élémentaires univariées suivantes: 


Attributes : 1 
Examples : 109 


Attribute Min Max Average Std-dev  Std-deufaug 
Prix total avec rabais 2690 85219.2 18764,5448 15122,2731 0.8050 


Computation time : 0 ms, 
Created at 29,04,2011 21:43:42 


C'est suffisamment simple pour ne nécessiter aucune explication particulière. 
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Exercice 5.: Statistiques élémentaires univariées discrètes 
Tanagra V1.4.36 


Toujours à partir du même fichier Ventes.xls nous souhaiterions générer de petites statistiques 
univariées continues discrètes. 


Pour cela nous rajoutons encore un sélecteur Define satus de l'onglet Feature Selection afin 
d'obtenir: 


Default title 


E Dataset (Ventes.txt) 
Eu View dataset 1 
4 Define status 1 


É Ex Define status 2 


et nous allons dans ses paramètres pour choisir la variable discrète Facture Payée: 


Define attribute statuses 


C N° Client Facture payée 
D âctivité 

C N° de Commande 
D Date de commande 
D éricle 

C Quantité 

C Prix par pièce 

D Rabais% 

C Prixtotal avec rabais 


Nous validons par OK. 


Ensuite nous rajoutons un opérateur Univariate discrete stat de l'onglet Statistics: 
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Components 
Data visualization | | Statistics | Nonparametric statistics | Instance selection | Feature construction | Feature selection | 
PLS | Clustering | Spv learning | Meta-spv learning | Spv learning assessment | Scoring | 

LÉ ANOVA Randomized Blocks [I Group characterization EF Linear correlation 22 Paired T-Test lu T-Test Unequal Variance 
ES Bartlett's test Group exploration L£fiore Univariate cont stat Ur Paired V-Test FÉUnivariate continuous stat 

Box's A Test 1 Hotelling's T2 À Normality Test LÉ Partial Correlation Univariate discrete stat 
Ex. Brown - Forsythe's test [ Hotelling's T2 Heteroscedastic TN One-way ANOVA LË Semi-partial Correlation #% Univariate Outlier Detection 
EX Fishers test ZiLevene's test L& One-way AAANOVA Liu T-Test li Welch ANOVA 


Description 
Descriptive statistics on discrete input attributes. 


Precondition 
One or more discrete attributes must be available in the dataset. The 
discrete attributes to be described must be set as INPUT. 


Target attribute(s] 
None. 


Input attribute(s) 
One or more discrete attributes to be described. 


Postcondition 
None. 


Pour avoir: 


E Dataset (Ventes.txt] 
View dataset 1 
7.#% Define status 1 
mn EË Univariate continuous stat 1 
a. Defineststus2 


ft Univariate discrete stat 1 


et nous procédons comme avant en exécutant et en affichant les données: 


Attributes : 1 
Examples : 109 


Attribute Gini Distribution 
Facture payée 0.4929 Oui 61 55,96 % en | 
ve « aux D 


Computation time : 0 ms. 
Created at 29.04,2011 21:55:16 


C'est suffisamment simple aussi pour ne nécessiter aucune explication particulière. 
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PA 


Concernant l'indice de Gini, nous avons déjà étudié comme calculer ce dernier dans le cours 
de statistiques théorique sur plusieurs pages (que je ne souhaite pas reproduire ici). 
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Exercice 6.: Statistiques univariées continues multiples 
Tanagra V1.4.36 


Avoir un peu plus d'indicateurs statistiques concernant la colonne Prix total avec rabais de 
notre fichier Ventes.fxt. 


Nous repartons de la configuration suivante: 


‘ FlDataset (Ventes.txt) 
1. A] View dataset 1 
25 Define status 1 


id FE Univariate continuous stat 1 
| Define status 2 


ii {ll Univariate discrete stat 1 
RS Define status 3 
[EI Group characterization 1 


et nous allons ajouter Prix total avec rabais dans l'Input: 


Define attribute statuses 


C N° Client Prix total avec rabais 
D âctivité 

C N° de Commande 
D Date de commande 
D éricle 

C Quantité 

C Prix par pièce 


Pour y ajouter un autre sélecteur Define status et nous ajoutons l'opérateur More Univariate 
cont stat de l'onglet Statistics: 
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Data visualization [ Statistics Nonparametric statistics Instance sele 
PLS | Clustering | Spv learning | Meta-spu lea 


FI ANOVA Randomized Blocks [M Group characterization 


EF Linear correlation 
MES Bartlett's test 


Group exploration 


Box's fi Test | Hotelling's T2 PA Normality Test 
a Brown - Forsythe's test [é Hotelling's T2 Heteroscedastic lik One-way ANOVA 
FE Fisher's test Zi Levene's test L& One-way A ANOVE 


Description 
Detailed descriptive statistics on input continuous attributes. 


Precondition 
One or more continuous attributes must be available in the dataset. 
The continuous attributes to be described must be set as INPUT. 


Target attribute(s) 
None. 


Input attribute{s) 
One or more continuous attributes to be described. 


Postcondition 
None. 


Nous exécutons et affichons cet opérateur pour obtenir: 


Attributes : 1 
Examples : 109 


Attribute Stats Histogram 
Average 18784.5448 | x_<_10942.9209 HE | 
Median 13587.0898 
10942.9203_=<_x_<_19195,8406 34 IA NN 
Std dev, [Coef of variation] 15122.2731 [0.8050] 
MAD [MAD /STDDEV] 10310.8494 p.6818] | M1PE:6406-55x0<-27448,7608 21 127% 
: .00*85219.20  27448.7609_=<_x_<_35701.6813 8 7.34% 
Prix total Min * Max [Full range] ZE Lo AS nl 
avec rabais 1 35701.6813_=< x_< 43954.6016 2 1.83% 
+ 
1st*3rd quartile Range] ARE pire 43954.6016_=<_x_<_52207.5219 1 0.92% 
skeuness (std-dev) 2,095 (0.2315)  72207:5219_=<_x_<_60460.4422 Li ROUES 
Kurtosis (std-dev) 5.6165 (0.4590)  60460.4422_=< x _<_68713,3625 3 275% | 
68713.3625_=<_x_<_76966.2828 1 0.92% 
x>=_76966.2828 1 0.92% 


Computation time : 0 ms. 
Created at 01.05.2011 13:23:24 


où MAD est la Median Absolute Deviation défini par: 
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MAD = Median(|X; - Median(X |) 


donc il s'agit de la médiane des écarts absolus à la médiane de la variable aléatoire X. 
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Exercice 7.: Test de Normalité 
Tanagra V1.4.36 


Pour le test de normalité (cas particulier d'application des tests de Shapiro-Wilk et 
d'Anderson-Darling démontré en cours), nous allons utiliser un échantillon de données 
différents car Tanagra, au même titre que certains autres logiciels de statistiques, refuse 
d'exécuter la statistique lorsqu'il y a moins de 8 individus. Nous allons donc nous baser sur 
l'échantillon suivant et le lecteur pourra vérifier si cela correspond bien évidemment par lui- 
même si cela correspond aux calculs faits à la main pendant le cours théorique (ce qui bien 
évidemment est le cas!): 


NI = 


O. 2962656625 
0. 5964454899 


À 


) J 


Nous souhaitons donc comparer si ces données suivent une loi Normale d'espérance et écart- 
type estimé sur l'échantillon. Pour cela, nous chargeons bien évidemment le fichier *.xls 
comme déjà vu plusieurs fois plus haut et nous avons alors: 


MP TANAGRA 1.444 - [Dataset (TestNormalite.xis)] CIE 
@ File Diagram Component Window Help BAE 
D'œ | 

Defaul tie 


PA SE a * 


#5 Defi 
“x Define status 1 Database : C:\Users\soz Vincent\Documents\Professionel\Cours\DataMining\ExercicesFR\TestNormalite, xls 


Download information 


Workbook information 
Number of sheets 1 Parameters | 
Selected sheet TestNormalite re = = à 
En sotx1 get | Input |llustratve] 
Dataset size 9x1 sl NOR MAI NORMAL 
Datasource processing. 
Computation time üms 
ällocated memory 1KkB 


Dataset description 


1 attribute(s) 
8 exampte(s) 


Attribute Category Informations 


Clear all Clear selected 


Data visualization Statistics | Nonparametric statistics Instance selectial]l Factorial analysis 


PLS Clustering Spv learning Meta-spv learni | 


ok ][ Cancel || Help 


>Correlation scatterplot  [.: View multiple scatterplot 
EMexport dataset 

LÉ Scatterplot 

LÉ Scatterplot with label 

Fview dataset 


Et nous prenons dans l'opérateur Normality Test de l'onglet Statistics: 
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G-fF] Dataset (TestNormalite.xls] 
g-#$ Define status 1 
-#\ Normality Test 1 


Nous faisons un clic droit View: 


O-fF] Dataset (TestNormalite.xls) 
O-Àÿ Define status 1 


Parameters…. 


Execute 


pour avoir au final: 


Attributes : 1 
Examples : 5 


Si Shapiro-Wilk  Liliefors D =max[D-,D+]  Anderson-Darlüing d'Agostino 
ÉTENe) DEul; x {p-value) {p-value) {p-value) (p-value) 
: 0,921941 0,1944 = max[0,1944,0,1744] 0,367186 -0,2097 * 2 + 0,1072 “2 = 0,0555 
DERDACS 0,16877 02725 (0,4458) {p >= 0.20) {p >= 0,10) (0,9726) 


Computation time : 0 ms. 
Created at 25/10/2012 14:43:37 


et donc outre le test d'Agostino et de Lilliefors que nous n'avons pas démontré en cours, nous 
retrouvons bien les valeurs pour les tests de Shapiro-Wilk ou d'Anderson-Darling. 
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Exercice 8.: Caractérisation de groupes 
Tanagra V1.4.36 


Toujours à partir du même fichier Ventes.xls nous souhaiterions caractériser la population à 
partir de l'état des factures payées. 


Pour cela nous rajoutons encore un sélecteur Define status de l'onglet Feature Selection afin 
d'obtenir: 


| FDataset (Ventes.txt) 
L. A] View dataset 1 


4 Define status 2 


L El Univariate discrete stat 1 
Fa Define status 3 


et nous allons mettre des variables Input en entrée qui nous sembleraient être subjectivement 
facteurs d'influence des factures payées ou non: 


Define attribute statuses 


C N° Client Quantité 

D éctivité Prix total avec rabais 
C N° de Commande 
D Date de commande 
D ätticle 

C Quantité 

C Prix par pièce 

DE 


et la variable discrète qui nous intéresse en Target: 
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Define attribute statuses 


C N° Client Facture payée 
D âctivité 

C N° de Commande 
D Date de commande 
D âricle 

C Quantité 


C Prix par pièce 


D Rabais% Add selected attibutes 


Nous validons par OK. 


Nous y ajoutons un opérateur du type Group characterization depuis l'onglet Statistics: 


HE] 4NOVA Randomized Blocks Group characterization 
Zi Bartletts test Group exploration 
à Box's A Test | Hotelling's T2 

> Brown - Forsythe's test | Hotelling's T2 Heteroscedastic 
FE Fisher's test 4 Levene's test 
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Group characterization 
Description 
Comparative descriptive statistics in order to characterize groups 
defined by discrete attributes. The aim of this component is to show if 
there are differences between groups according to the various 
statistical indicators such as average, proportion, etc. The groups are 
defined by the discrete TÉRGET attributes. The descriptives statistics 
are computed on discrete or continuous INPUT variables. This 


component can be used for instance in order to depict groups 
computed by a clustering algorithm. 


Precondition 
The TÉRGET and INPUT attributes must be specified. 


Target attribute(s) 
One or more (if you want characterize several groups] discrete 
attributes. 


Input attribute(s) 
One or more continuous and/or discrete attributes. 


Postcondition 
none. 


pour avoir: 


‘ FDataset (Ventes.txt) 
view dataset 1 


L. E& Define status 1 


E Eu EE Univariate continuous stat 1 
EE Define status 2 


bi El Univariate discrete stat 1 
F4 Define status 3 
( Group characterization 1 


et enfin nous exécutons cet opérteur et affichons les résultats comme précédemment: 


Normalization : 0 


Description of “Facture payée" 
Facture payée=Oui Facture payée=bHon 
Examples [56.0 %] 61 Examples [44.0 %] 48 
âtt - Desc Test value Group Overral âtt - Desc Test value Group Overral 


Prix ne rabais -1,73 16545,60 (11350,26) 18764.54 (15122.27) Quantité 1.91 9.42 (7,54) 8.11 (6.31) 


Quantité -1.91 7.08 (4,98) 8.11(6.31) Prix total avec rabais 1.73 21629.87 (18607.76) 18784,54 (15122,27) 


Computation time : 0 ms, 
Created at 29.04,2011 22:14:18 


Nous observons donc qu'en moyenne, le prix total avec rabais est moins élévé (16'546.60) 


pour ceux qui payent les factures que pour ceux qui ne les paient pas. Il en est de même pour 
les quantités. Le résultat est peu surprenant. 
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Concernant la Test value (TV), il s'agit d'un indicateur permettant de comparer pour une 
variable continue la moyenne et pour une variable discrète la proportion. 


Dans le cas d'une variable continue cette valeur provient simplement d'un test Z de la 
moyenne: 


= Hoverall — À 


Ooverall 


\n 


Mais avec le facteur de correctiond la population démontré en cours, ce qui fait que la 
dernière relation devient: 


= Hoverall — groupe : Hoverall — groupe 


fcp ; overall N-n O overall 
Vn \ N-1 4/n 


Dans le cas d'un variable discrète, le test se fait sur la base des proportions vues aussi dans le 
cours théorique: 


Z = 7" — 
N -n p(1-p) 
N -1 n 


S1 au lieu de travailler avec les proportions, nous voulons travailler avec le comptage, un 
simple transformation nous amène à: 


N-n p(1-p) 
N -1 n 
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Exercice 9.: Régression linéaire simple ou multiple 
Tanagra V1.4.38 


Nous allons prendre ce fichier qui MS Excel qui nous est connu mais qu'il a fallu restructurer 
pour Tanagra (voir cours sur MS Excel): 


Regression.xis 


contenant: 


+ 


2 l 44439 515 541 928 
3 2 43936 929 692 a 
: 3 44464 300 710 324 
: 4 41533 379 675 758 
6 5 46343 1165 1147 635 
fi 6 44922 651 SEE 901 
8 7 43203 847 755 580 
9 8 43000 942 908 589 
10 3 40967 630 738 682 
11 10 43582 1113 1175 1050 
12 11 45003 1086 1075 984 
13 12 44303 843 640 328 
14 13 42070 500 752 708 
15 14 44353 813 989 804 
16 15 45968 1190 823 304 
1 16 47781 1200 1108 1120 
18 12 43202 731 590 1065 

18 44074 1089 607 1132 
Q 19 44610 786 213 339 


Nous l'importons dans Tanagra en utilisant la même procédure que les exercices précédents: 


TANAGRA 14.2 


Loi File  Diagram Component Window Help 


D | #i 


_— Dataset (Regression.xls) 


Nous y ajoutons un sélecteur de type Define status comme pour les exemples précédents: 
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A-f Dataset (Regression.xls] 
EL. x Define status 1 


mais avec la variable d'intérêt dans Target: 


Parameters 
&ttributes : , 
Target Input | Ilustrative 


Coûts 


C Coût de 4 
C Coût de B 
C Coût de C 


êA | Clear all Clear selected 


et dans les Input: 


Parameters 
&ttributes : : 
IMput  |Ilustrative 


C Mois Coût de 4 
Coût de B 
Coût de C 


8/8 | |] 


Ajoutons ensuite l'opérateur Multiple linear regression: 
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| Components 
Data visualization | Statistics | Nonparametric statistics | Instance selection | Feature construction | 
Feature selection | P Regression | Factorial analysis | PLS | Clustering | 
Spv learning | ieta-spv learning | Spv learning assessment | Scoring | ässociation | 
Es Backward Elimination Reg | Espilon SVR L% Nu SUR #3, Regression tree 
CRT Regression tree F4 Forward Entry Regression L, Outlier Detection 
LÉ, DfBetas Multiple inear regression 6 Regression hssessment 


sous le Define status 1: 


E-fF] Dataset (Regression.xls) 
G-#% Define status 1 


Description 
Predict values of a target attribute from input ones, all are 


continuous. |t performs à multiple linear regression according to the 
OLS (Ordinary Least Square] principle. 


Precondition 
Two or more continuous attributes must be available. 


Target attribute(s) 
One continuous endogenous variable. 


Input attribute(s) 
One or more continuous exogenous variables. 


Postcondition 
The prédictions and the residuals columns (two new continuous 
attributes] are added in the dataset. 


Nous lançons la régression en cliquant sur View: 


EF Dataset (Regression.xls] 
E-Éÿ Define status 1 


PA iultiple linear geocesc 
Parameters.…. 


Execute 


D 


Pour obtenir: 
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Regression parameters 


Global results 


Analysis of variance 


Source xsS dif. xMS F p-value 
Regression  42856229.8868 3 14285409,9623 9.1024 0.0011 
Residual 23541260,7448 45 1569417.3830 
Total 66397490.6716 48 
Coefficients 

Attribute Coef. std #15) p-value 
Intercept 35102.900449  1837.226911 19.106459 DS 
Coût de 4 2.065953 1.664982 1.240826 0.233727 


Coût de B 4176356 1.681253 2.484074 DM0I025266) 
Coût de C 4.790641 1.789316 2.677359 (0017223) 


Residuals analysis 


ed 21005 


1143,6117 
Std dev, [Coef of variation] F1424007051.9366] 


MAD [MAD /STDDE] 975.0982 [0.8526] 
Min * Max [Full range] -2042,81 * 1721.44 [764,26] 


Err-Predimres lis 34 quartie Range] -977,19* 818,98 [1796.16] 
ou 6525 
Kurtosis (std-dew) -1,0173 (1,0143) 


Nous obtenons donc toutes les valeurs vues dans le cours théorique. 
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Exercice 10.: Test de Normalité des résidus de la régression linéaire 
Tanagra V1.4.48 


Nous allons reprendre les mêmes données que l'exemple sur la régression linéaire simple ou 
multiple précédemment: 


4 


Coûts Coût de B 
44439 515 541 928 


— 


2 1 
3 2 43936 929 692 711 
À 3 44464 800 710 824 
à) 4 41533 979 675 758 
6 5 46343 1165 1147 635 
7 6 44922 651 939 901 
8 7 43203 847 755 580 
9 8 43000 942 908 589 
10 9 40967 630 738 682 
11 10 43582 1113 1175 1050 
12 11 45003 1086 1075 984 
13 12 44303 843 640 828 
14 13 42070 500 752 708 
15 14 44353 813 989 804 
16 15 45968 1190 823 904 
17 16 47781 1200 1108 1120 
18 17 43202 731 590 1065 
18 44074 1089 607 1132 
20 19 44610 786 513 839 


en laissant l'opérateur mis précédemment: 


O-fF] Dataset (Regression.xls) 
G-# x Define status 1 


EL fultiple linear regression 1 


Mais nous allons rajout le sélecteur Define Status: 


Of Dataset (Regression.xls) 
G-É$ Define status 1 
a-L# Multiple linear regression 1 


L. Là Define status 2 


Et dans les paramètres, nous allons mettre en tant que /nput la variable créée par le composant 
Multiple linear regression et qui est Err_Pred_Imreg_1: 
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Parameters 


&tributes : pere 
Target 


C Mois Err_Pred_Imreg_1 
C Coûts 

C Coût de 4 
C Coût de B 
C Coût de C 


C Pred_Imreg_1 


El 8) | 


Et nous ajoutons l'opérateur Normality Test du groupe Statistics: 


Q-fF Dataset (Regression.xls) 
GP Define status 1 
8-Lé Multiple linear regression 1 
G-F$ Define status 2 
L. 4h Normality Test 1 


et nous obtenons en l'exécutant: 


Attributes : 1 
Examples : 19 


: Shapiro-Wilk  Lilliefors D =max[D-,D+]  Anderson-Darling d'Agostino 
FRE il ma (p-value) (p-value) (p-value) (p-value) 
, 0,951817 0,1504 = max([0,1504,0,0708] 0,343593 -0,6530 * 2 + -1,2458 * 2 = 1,9783 
Err_Pred_Imreg_1 0,0000 ; 1143,6117 (0,4241) {p == 0,20) {p >= 0.10) (0,3719) 


Nous ne rejettons donc pas l'hypothèse nulle comme quoi les résidus sont normalement 
distribués. 
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Exercice 11.: Régression linéaire ascendante (Forward Entry Regression) 
Tanagra V1.4.38 


Nous allons reprendre les mêmes données que l'exemple sur la régression linéaire simple ou 
multiple précédemment: 


1 Es Coût de B 
2 1 44439 515 541 928 
5 2 43936 929 692 711 
4 3 44464 800 710 824 
5 4 41533 979 675 758 
6 5 46343 1165 1147 635 
7 6 44922 651 939 901 
8 7 43203 847 755 580 
9 8 43000 942 908 539 
10 9 40967 630 738 682 
11 10 48582 1113 1175 1050 
12 11 45003 1086 1075 984 
13 12 44303 843 640 828 
14 13 42070 500 752 708 
15 14 44353 813 939 804 
16 15 45968 1190 823 904 
il 16 47781 1200 1108 1120 
18 17 43202 731 530 1065 

18 44074 1039 607 1132 
20 19 44610 786 513 839 


pour effectuer une régression linéaire ascendante (Forward Entry Selection) et comparer les 
résultats par rapport à ceux obtenus à la mains dans MS Excel et ceux obtenus aussi dans 
Minitab 15 dans le cours théorique. 


Nous y ajoutons un sélecteur de type Define status comme pour les exemples précédents: 


Of Dataset (Regression.xls] 
L. Ex Define status 1 


avec la variable d'intérêt dans Target: 
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Parameters 


&ttributes : 


Target 


Coûts 


C Coût de B 
C Coût de C 


# | 


et dans les Input: 


Parameters 


C Mois Coût de 4 
C Coûts Coût de B 
[el Coût de 4 Coût de C 
C Coût de B 
(el Coût de C 


8/8 | |] 


Ajoutons ensuite l'opérateur Forward Entry Regression du groupe Regression: 


Of] Dataset (Regression.xls] 
B-#% Define status 1 


Forward Entry Regression 1 


++ 
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Nous pouvons dans les paramètres de cet opérateur (comme pour Minitab) donner le niveau 
de seuil de rejet des coefficients que nous allons laisser à 5%: 


Parameters 


Sig. level : 0,05 


En exécutant cet opérateur nous voyons que nous retrouvons bien que les coefficient C et B 
comme pour les calculs faits dans MS Excel et avec Minitab mais à la différence que nous 
avons certaines informations en plus qui sont fort sympathiques d'abord dans le premier 


onglet Report: 


Regression parameters 
Include intercept yves 
Sig. Level 0,0500 


Global results 


Endogenous attribute 
Examples 

Rz 

ädjusted-R? 

Sigma error 

F-Test (2,16) 


Analysis of variance 
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Source XxSS d.f. xMS F p-value 
Regression  40429876,2896 2 20219938, 1448 12,4634 0,0005 
Residual 25957614,3420 16 1622350,8964 
Total 66397490,6316 18 
Coefficients 

Attribute Coef. std t(16) p-value 
Intercept 35475,302654  1642,860853  19,250125 DSSN000NNN] 


Coût de B 5,320968 1,429095 3,723312  0,001849 
Coût de C 5,417138 1,745312 3,103823 DST 


Forward Selection Process 


partial corr. 
F (p-value) 


Step 1 Step 2 Step 3 


F 0,6007 0,4042 0,3051 
EE 9,60 (0,0065} 3,13 (0,0962) 1,54 (0,2337) 
io Si Er | | 

« 0,5199 


Residuals analysis 


amd 
1200,8704 
1-249217432,2252] 


MAD [MAD /STDDEV] 1068,2069 [0,8895] 


5 -2129,67 * 1860,06 
+ 
Err_Pred_fudReg_1 Min *Max [Full range] 989,73] 
; -1181,93 * 1057,95 
1st*3rd quartile [Ran: 
q ge] 1239.86] 


-1,3143 (1,0143) 


Std dev, [Coef of variation] 


et dans le deuxième onglet nous avons la matrice d'information (pourquoi pas...): 


lnwReportwns| 0029761) matrix 
CRO 


1.2588608E-6 -8,34972E-8  -0.00094325199 


-8,94972E-8 1187759186 :-0.0015128489 
000094325199 000175128489 20933425 
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Nous allons reprendre les mêmes données que précédemment: 


pour effectuer une régression linéaire descendante (Backward Entry Selection) et comparer 
les résultats par rapport à ceux obtenus à la mains dans MS Excel et ceux obtenus aussi dans 


— 


LES EN 


An LU 


Coûts e À Coût de B 
44439 515 541 
43936 929 692 
44464 800 710 
41533 979 675 
46343 1165 1147 
44922 651 939 
43203 847 755 
43000 942 908 
40967 630 738 
48582 1113 1175 
45003 1036 1075 
44303 843 640 
42070 500 752 
44353 813 939 
45968 1190 823 
47781 1200 1108 
43202 731 530 
44074 1039 607 
44610 786 513 


Minitab 15 dans le cours théorique. 


Nous y ajoutons un sélecteur de type Define status comme pour les exemples précédents: 


Q'f4] Dataset (Regression.xls] 
L. Ex Define status 1 


avec la variable d'intérêt dans Target: 
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Parameters 


&ttributes : 


Target 


C Coût de B 
C Coût de C 


Coûts 


êA | Clear selected 


et dans les Input: 


Parameters 


&ttributes : 


C Mois 

C Coûts 
Coût de à 

C Coût de B 

(el Coût de C 


|] 


Coût de 4 
Coût de B 
Coût de C 


tA | Clear all 


Ajoutons ensuite l'opérateur Backward Elimination Reg du groupe Regression: 
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Nous pouvons dans les paramètres de cet opérateur (comme pour Minitab) donner le niveau 
de seuil de rejet des coefficients que nous allons laisser à 5%: 


Parameters 


Sig. level : 0,05 


[ok _J[ concst [He | 


En exécutant cet opérateur nous voyons que nous retrouvons bien que les coefficient C et B 
comme pour les calculs faits dans MS Excel et avec Minitab mais à la différence que nous 
avons certaines informations en plus qui sont fort sympathiques d'abord dans le premier 
onglet Report: 


Report QE) matrix 


Regression parameters 
include intercept yes 
Sie. Level 0,0500 


Global results 


Endogenous attribute Coûts 

Examples 19 

R? 0,609057 

ädjusted-R? 0,560189 

Sigma error 1273,715391 

F-Test (2,16) 12,4634 (0,000546) 
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Analysis of variance 


Source xSS d.f. xMS F p-value 
Regression  40439876,2896 2 20219938, 1448 12,4634 0,0005 
Residual 25957614,3420 16 1622350,8964 
Total 66397490,6316 18 
Coefficients 

Attribute Coef. std t(16) p-value 
Intercept 35475,302654  1642,860853  19,250125 DSNTONONN] 


Coût de B 5,320968 1,429095 3,723312 0.001847 
Coût de C 5,417138 1,745312 3,100823 DIE 


Backward Elimination Process 


Step 1 Step 2 


: 2,48 3,72 
COM ONE (0,0253) (0,0018) 
Coût de C 2e c710 


(0,0172) (0,0068) 


Residuals analysis 


an amd 


Std dev. [Coef of variation] 12492 Pas 
[: » 


HD [MAD/STDDEV] 1068,2069 [0,8895] 


; -2129,67 * 1860,06 
+ 
Err_Pred_buReg_1 Min * Max Full range] 198,73] 
à -1181,93* 1057,95 
_ 
1st*3rd quartile Range] 12239,86] 


Skewness (std-dev) -0,2377 (0,5238) 


et dans le deuxième onglet nous avons encore une fois la matrice d'information: 


OT EA) matrix 


Coût de C 
1,2588608E -6 -8,94972E-8 -0,00094325199 
-8,94972E-8 11.8775918E-6 | -0,0015128489 
-0,00094325193  -00015128489 | 2,0933425 
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Exercice 13.: Coefficient de corrélation de Spearman (Spearman rho) 
Tanagra V1.4.48 


Nous allons partir ici des mêmes données que celles utilisées dans le cours théorique pour 
encore une fois vérifier que nous retombons sur la même chose ou pas: 


B 


Q 


10 
11 


Nous ouvrons ce fichier dans Tanagra comme à l'habitude: 


_ Dataset (CoefficientSpearman,xls) 


et nous lui mettons le sélecteur Define Status: 


D] Dataset (CoefficientSpearman.xls] 


bu x Define status 1 


avec en Input le champ X (en réalité peut importe lequel comme nous l'avons vu dans le 
cours théorique): 
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Parameters 


&ttributes : 


[C ES x 
CY 


Target | Input |Illustrative 


LC 
[REA] BEN _&#| jemeervanm 


et en Input la variable restante: 


Parameters 


&ttributes : ras | er 
EE 


&/E] | (_Ciear ail] (Clear selected 


Nous ajoutons ensuite l'opérateur Spearman's rho du groupe Nonparametric statistics: 


0 Dataset (CoefficientSpearman.xls) 
Gr fa D Define status 1 


Spearman's rho 1 


et nous l'exécutons sans autre pour obtenir: 
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Cross-tab parameters 


Sort results non 


Input list Target (Y) and input (X] 


Y X r r? t Pr |t |) 


x Y -0,6383 0,4074  -2,3453 MT;470) 


Computation time : 0 ms. 
Created at 07/09/2013 23:53:28 


Ce qui outre le test f que nous n'avons pas démontré dans le cours théorique, est parfaitement 
conforme aux calculs faits à la main. 
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Exercice 14.: Régression logistique binaire (SPV) 
Tanagra V1.4.44 


Ici encore nous allons vérifier si les calculs faits à la main lors de la démonstration du 
principe de la régression logistique correspondent avec MS Excel et Minitab. 


Nous partons donc de la liste des crédits suivante de 137 lignes (fichier 
RegressionLogistique.xls): 


À B 

1 Montant Status 

7 27200 Oui 

3 27200 Oui 

4 27200 Oui 

5 27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Non 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 
27200 Oui 


Nous l'importons dans Tanagra comme à l'habitude et y mettons un sélecteur Define status: 


Of] Dataset (RegressionLogistique.xls] 
G-ÿ Define status 1 


Dans les paramètres de celui-ci nous mettons le champ Status en Target (qui doit absolument 
être une variable discrète binaire textuelle): 
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Parameters 


&ttributes : 
Target Ilustrative 


C Montant Status 
D Status 


|  (cearal ] (üiearseiesed 


Parameters 


Attributes : - 
Ilustrative 


C Montant Montant 
D Status 


JE] |] 


N'oubliez pas d'exécuter ce composant! Ensuite nous rajoutons l'opérateur Binary logistic 
regression du groupe Spv: 


EF] Dataset (RegressionLogistique.xls] 
G-Éÿ Define status 1 


æ-[»] Supervised Learning 1 (Binary logistic regression) 
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sans y changer les paramètres du composant nous l'exécutons de suite: 


of Dataset (RegressionLogistique.xls) 
G- Le Define status 1 


Parameters… 


Supervised parameters. 


CEate 


View 


Il vient alors après avoir fait un View après l'exécution (les informations sont plus pertinentes 
que celles renvoyées par Minitab): 


il Covariance matrix 


Classifier performances 
CO Erorrte 2 


Values prediction Confusion matrix 


Oui 0,7111 0,3725 
Non 0,7912 0,1529 Mon 19 72 91 


Sum 51 85 136 


— 


Avant d'aller plus loin nous voyons dans la matrice de confusion que sur les 91 bon débiteurs 
(correspondant ici au statut: Non) qu'il y avait dans la liste d'origine, le modèle en prédit 19 
comme étant mauvais débiteurs et 72 comme étant bons. La même lecture est valable pour les 
45 mauvais débiteurs. Si évidemment le modèle était parfait, la matrice de confusion serait 
diagonale. 


Continuons avec les captures d'écran de l'onglet Report: 
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Criterion Intercept Model 


Ici il n'y a pas grand chose à dire puisque nous n'avons pas encore étudié ces indicateurs dans 
le cours théorique mais celui du khi-2 est cependant un classique dont l'interprétation ne 
souffre d'aucun doute sur la conclusion du modèle. 


Enfin, toujours dans le même onglet Report et pour finir: 


Attributes in the equation 


Attribute Coef. Std-dev Wald Signif 


constant 61,318917 12,0224 26,0135 DSTI 
Montant -0,002211 0,0004 26,5346 DIN] 


Odds ratios and 95% confidence intervals 


Attribute Coef. Low High 
Montant 0,9978 0,9969 0,9986 
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Nous voyons que contrairement à Minitab et à Excel les signes des coefficients sont inversés 
mais c'est juste une convention dans le choix de distribuer les signe "-" présent dans 


l'exponentielle du modèle logistique à l'intérieur de la parenthèse. 


Et nous avons dans le deuxième onglet la Covariance matrix: 


| Report Covariance matrix L 
Cov.Matrix |intercept {Montant | 
intercept 14453804 -0,0051 730353 
Montant -0,0051 730353 1.8563644E-7 
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Exercice 15.: Lift Curve et ROC Curve (sur régression logistique binaire) 
Tanagra V1.4.44 


Le but va être ici de vérifier que nous retrouvons la même forme de Lift Curve et ROC Curve 
(Receiver Operating Characteristic) que celles obtenues à la main avec MS Excel dans le 
cours théorique pour la régression logistique (mais le principe est toujours le même). 


Pour cela nous ajoutons d'abord le composant Scoring du groupe Scoring: 


Components 
Data visualization | Statistics Nonparametric statistics | Instance selection | Feature construction Feature selection | 
PLS | Clustering Spv learning | Meta-spv learning | Spv learning assessment Scoring | 
#7 Lift curve £2 Roc curve 
[ll Posterior Prob Î "NT 
TX Precision-Recall curve 


[7TRetiability Diagram 


Afin d'avoir: 


Of] Dataset (RegressionLogistique.xls] 
-Fÿj Define status 1 
a-0] Supersised Learning 1 (Binary logistic regression) 
fl Scoring 1 


et dans les paramètres de ce composant: 


E-f4] Dataset (RegressionLogistique.xls) 
EF Define status 1 
a-0] Supervised Learning 1 (Binary logistic regression) 
&- fl 


NS Parameters… 


Execute 


View 


nous disons que nous allons nous intéresser aux débiteurs à risque: 


Parameters 


R Positive class value : Qui 


| ok || Cancel I Help 


Vous n'oubliez pas ensuite d'exécuter ce composant: 
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GIF Dataset (RegressionLogistique.xls) 
GP Define status 1 
G-[] Supersised Learning 1 (Binary logistic regression) 
m-Î L 


Parameters… 
Re | 
iew 


Une fois ceci fait, il ne sert à rien dans l'état présent. Il faut lui ajouter un sélecteur Define 
satut: 


Of] Dataset (RegressionLogistique.xls) 
GP Define status 1 
a-0] Supervised Learning 1 (Binary logistic regression) 
G-fL Scorine 1 


ENT Define status 2 


Avec Status comme champ dans l'onglet Target: 


ëttributes : NS Target | Input |lllustrative 
————— 


C Montant Status 
D Status 

D pred_Spvinstance_1 
C Score_1 


E&/E |] |] 


et Score_1 dans Input: 
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Parameters 


&ttributes : 


C Montant 

D Status 

D pred_Spvinstance_1 
C Score_1 


E&/E | | 


Vous n'oubliez pas ensuite d'exécuter aussi ce composant: 


Of] Dataset (RegressionLogistique.xls] 
Fi Define status 1 

G-0] Supersised Learning 1 (Binary logistic regression) 
-fL Scorine 1 


Parameters… 
| Execute 
Rs 


Enfin, nous rajoutons l'opérateur Lift curve du groupe Scoring: 


Of] Dataset (RegressionLogistique.xls) 
GP Define status 1 
a-0] Supervised Learning 1 (Binary logistic regression) 
S-Ùl Scoring 1 
A Define status 2 


EE F4 Lift curve 1 


Dans ses paramètres: 
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Of] Dataset (RegressionLogistique.xls] 
G-Fj Define status 1 
8-0] Supervised Learning 1 (Binary logistic regression) 
-fL Scorine 1 
G-Ff Define status 2 


| NS Parameters. 


Execute 


View 


nous prenons: 


Parameters 


FRET value : 


r Used examples 


© Selected 


© Unselected 


et nous affichons le contenu: 


Of] Dataset (RegressionLogistique.xls) 
G-Æj Define status 1 
8-0] Supervised Learning 1 (Binary logistic regression) 
-fL Scorine 1 
G-Æ$ Define status 2 


Parameters… 


Execute 
Es 


Pour obtenir un rapport en deux onglets dont le premier contient: 
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LIFT Curve 


Sample size : 136 
Positive examples : 45 


0,7édé 
0,7édé 
0,764é 
0,7é4é 
0,7édé 
0,5182 
0,5182 
0,5182 
0,2220 
0,2220 
0,2220 
0,2220 
0,2220 
0,1862 
0,1862 
0,1862 
0,1862 
0,0082 
0,0082 
0,0082 
0,0082 


a 
8 
œ 
È 
= 
œ 
5 
œ 


et le deuxième onglet contient simplement un tracé de la colonne TP-Rate 
(TP=True Positive) en fonction de la Target-Size: 
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HTML Chart 


Lift curve 


— Random 
— Score_1 


° à/o 


Percent of positive 


LE 


0 01 0,2 0,3 04 05 06 0,7 08 08 1 
Percent of population 


Nous pouvons observer qu'aussi bien le TP-Rate que la courbe Lift sont erronées par 
rapport au calcul à la main et Minitab+SPSS! Après étude du code source de Tanagra 
de ma part il semblait qu'il y ait une erreur de codage car ce que fait ci-dessus Tanagra 
c'est qu'il ne nous montre que des multiples du ratio 1/45. Je pense que cette erreur vient 
du fait qu'à la base le développeur n'a peut-être pas pensé que l'on pourrait avoir des très 
nombreux doublons dans la population d'origine. Donc pour l'instant utilisez Minitab/SPSS ou 
autre. 


Enfin, nous rajoutons le composant Roc curve du groupe Scoring: 


EO Dataset (RegressionLogistique.xls) 
OR Define status 1 


g-{] Supervised Learning 1 (Binary logistic regression) 


=] l Sconng 1 
E-F4 Define status 2 
EPA Roc curve 1 


Dans ses paramètres: 


= Dataset (RegressionLogistique.xls) 
2-FE Define status 1 


E D] Supervised Learning 1 (Binary logistic regression) 


af} Scoring 1 
a-#4 Define status 2 
NS Parameters… 
Execute 
View 
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Nous prenons: 


Parameters 


Positive class value : 


- Used examples 


© Selected 


© Unselected 


Nous validons et faisons un View: 


Arf] Dataset (RegressionLogistique.xls] 
G-Æ$ Define status 1 
8-0] Supervised Learning 1 (Binary logistic regression) 
g-fL Scoring 1 
G-F$ Define status 2 


Parameters.… 


Execute 
p = 


Pour obtenir au final un rapport en deux onglets le premier contenant: 


Positive class value : Oui 
Used examples : Selected 


ROC Curve 


Sample size : 136 
Positive examples : 45 
Hegative examples : 91 


Score Attribute Score _1 
AUC 0,8128 
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0,7édé 
0,7édé 
aéts Dita Loan 
0,7édé 
0,7édé 
0,5182 
0,5182 
0,5182 
0,2220 
0,2220 
0,2220 
0,2220 
0,2220 
0,1862 
0,1862 
0,1862 
0,1862 
0,0082 
0,0082 
0,0082 
0,0082 


et le deuxième onglet: 


HTML Report Chart 


: ROC Curve 


Qgl se Ds Dr et At a Lee ee eee ne eg ner As ee DR 


0,7+------------ and an lentes E ss n Sn umemde eus sn nue lensnus=a sed NusnnasussesMaudemnenuidliasmunensanltenncentnens 


True Positive Rate (Sensitivity) 


Re SE ee PR 


0 0 02 03 


— Random : 0.500 
— Score_1 : 0,813 
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Nous pouvons observer qu'aussi bien le TP-Rate que le FP-Rate que la courbe ROC sont 
erronées par rapport au calcul à la main et Minitab+SPSS! Après étude du code source 
de Tanagra de ma part il semblait qu'il y ait une erreur de codage car ce que fait ci- 
dessus Tanagra c'est qu'il ne nous montre encore une fois que des multiples du ratio 
1/45. Je pense que cette erreur vient du fait qu'à la base le développeur n'a peut-être pas pensé 
que l'on pourrait avoir des très nombreux doublons dans la population d'origine. Donc pour 
l'instant utilisez Minitab/SPSS ou autre. 
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Exercice 16.: Test-T homoscédatique 


Tanagra V1.4.44 


Nous allons ici vérifier si nous retombons sur le même résultat que celui obtenu en cours lors 
de l'étude théorique et la démonstration mathématique du test-t de comparaison des moyennes 


deux échantillons non appariés. 


Nous allons travailler avec le tableau contenant les données du cours théorique: 


que nous allons devoir redisposer de la manière suivant pour Tanagra (ce qui est la structure 


conforme à du Data Mining): 
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À 
1 Pipeline 1 
À 
5 
7 
10 
11 
12 
14 
15 
16 
17 
19 
20 


163 
150 
171 
155 
186 
145 
154 
173 
152 
150 
143 
138 
166 
193 
158 
175 
167 
150 
158 


B 
Pipeline2 


167 
157 
149 
145 
135 
157 
135 
167 
154 
165 
170 
165 
154 
176 
155 
157 
134 
156 
147 
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À E 
Données  Pipeline 
163 Pipeline 1 
150 Pipeline 1 
171 Pipeline 1 
155 Pipeline 1 
186 Pipeline 1 
145 Pipeline 1 
154 Pipeline 1 
173 Pipeline 1 
152 Pipeline 1 
150 Pipeline 1 
143 Pipeline 1 
138 Pipeline 1 
166 Pipeline 1 
193 Pipeline 1 
158 Pipeline 1 
175 Pipeline 1 
167 Pipeline 1 
150 Pipeline 1 
158 Pipeline 1 
167 Pipeline 2 
157 Pipeline 2 
149 Pipeline 2 
145 Pipeline 2 
135 Pipeline 2 
157 Pipeline 2 


Nous l'importons dans Tanagra et y ajoutons un sélecteur Define status: 


(RE 
Execute 


View 


Pour y mettre comme Target les données: 
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Parameters 
&ttributes : z 
Target Input | Illustrative 


([s} Données 
D Pipeline 


AE] |] 


et comme Input les catégories: 


Parameters 


&ttributes : u 
dou Illustrative 

[C Données Pipeline 

D Pipeline 


AE] |] 


Nous ajoutons le composant T-Test: 


Off] Ditaset (TestT_2Echantillons,xls) 
O4 Define status 1 


in Lu T-Test 1 


et en affichons le contenu pour avoir: 
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Parameters 


Sort results no 


Attribute_Y Attribute_X Description Statistical test 
DE ME ME 7 
; 19 160,3684 14,5343 dif, 36,00 
Données Pipeline 
= 2 19 155,0000 12,0416  p-value 0,223074 
Al 38 157,6842 13,4428 


Nous voyons que les sorties correspondent à ce que nous avons calculé dans le cours 
théorique. Il manque cependant l'intervalle de confiance qui est important dans la pratique. 
C'est dommage... 
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Exercice 17.: Test-T hétéroscédastique 
Tanagra V1.4.44 


Nous continuons l'exemple d'avant en ajoutant l'opérateur T-Test Unequal Variance: 


EF Dataset (TestT_2Echantillons.xls) 
E-Fÿ Define status 1 


be Lu, T-Test 1 


ms. T-Test Unequal Variance 1 


et nous affichons le résultat: 


Parameters 


Sort results no 


Attribute_Y Attribute_X Description Statistical test 
Value) || NExemples) LAverage | DiStddeu| T  5,2684 / 4,3001 - 1,239791 
: Pipelne 1 19 160,3684 14,5343 d.f. 34,80 
Données Pipeline 
Pipeline 2 19 155,0000 12,0416  p-value 0,223301 
Al 38 157,6842 13,4428 


Là encore 1l manque l'intervalle de confiance mais ce qui est sympathique que les d.f. ne sont 
pas arrondis et que nous tombons exactement sur les degrés de libertés obtenus avec 
l'équation de Welch-Satterthwaite démontrée en cours. 
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Exercice 18.: Clustering CART (arbres de régression) 
Tanagra V1.4.38 


Nous allons ici vérifier si nous retombons sur le même résultat que celui obtenu en cours lors 
de l'étude théorique et la démonstration mathématique du principe de fonctionnement des 
arbres de régression. 

Nous allons travailler avec le fichier suivant: 


5} ArbreRegressionCART.xÎs 


qui contient les mêmes données que celles vues dans le cours théorique: 


IN Revenus Surface Propriétaire 


2 60 18.4 il 
3 85.5 16.8 l 
4 64.8 21.6 1 
5 61.5 20.8 il 
é 87 23.6 l 
7 110.1 19.2 l 
8 108 17.6 l 
9 82.8 22.4 l 
10 69 20 l 
li 93 20.8 l 
2 51 22 l 
13 81 20 il 
14 75 19.6 2 
15 52.8 20.8 2 
lé 64.8 17.2 2 
7 43.2 20.4 2 
84 17.6 2 

49.2 17.6 2 

20 59.4 16 2 
21 éé 18.4 2 
7. 47.4 16.4 2 
23 33 18.8 2 
24 51 14 2 
25 63 14.8 2 


Nous l'importons dans Tanagra en utilisant la même procédure que les exercices précédents: 
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ANAGRA : 
œ File Diagram Component Window Help 


D'œ | % 


ve Dataset (ArbreRegressionCART, xls) 


Nous y ajoutons un sélecteur de type Define status comme pour les exemples précédents: 


Of] Dataset (hrbreRegressionCART.xls) 
LS Define status 1 


mais avec la variable d'intérêt dans Target: 


Parameters 
&ttributes : 
Target | input Jltustatre| 


C Revenus Propriétaire 
C Surface 


Propriétaire 


A/R] |] 


et dans les Input: 


76/145 


CG Vincent ISOZ 


TANAGRA (Ricco RAKOTOMALALA) 


efine attribute s 


Parameters 


&ttributes : Peel 
Target 
(el Revenus 


Surface 


C Propriétaire 


A] | | 


Ajoutons ensuite l'opérateur Regression tree: 
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File Diagram Component Window Help 


D Hi] # 


Default title 
GIF Dataset (ArbreRegressionC4RT,. xls) 
: Ex Define status 1 


Database : C:\Users\soz Vincent \Desktop'ärbreRegressionCART xls 


Download information 


Workbook information 
Number of sheets 1 
Selected sheet CART 
Sheet size 25x3 


Dataset size 25x3 


Datasource processing 
Computation time Oms 


ällocated memory  4KEB 


Dataset description 


3 attribute(s) 
?4 examnleis\ 


Components 


Data visualization Statistics Nonparametric statistics | Instance selection | Feature construction 


| | 
Feature selection | [ Resression | Factorial analysis | PLS | Clustering 
| 


Spv learning feta-spv learning Spv learning assessment | Scoring âssociation 


# Backward Elimination Ree L# Espilon SVR L% Nu SUR 
CRT Regeression tree ke Forward Entry Regression LÉ, Outlier Detection 
LÉ, DfBetas LÆ fultiple linear regression | 5 Regression ässessment 


Description 

Predict values of a continuous target attribute with a regression tree, 
input(s] can be continuous or discrete. The used algorithm is the 
univariate version of the Clustering Tree (CTP -- See "Clustering" 
tab]. The learning method includes à post pruning process. Detailed 
results about the pruning sequence can be depicted. The best tree 
on the pruning set and the selected tree are underlined. 


Precondition 
One continuous target attribute is needed. The input attributes can 
be continuous or discrete. 


Target attribute(s] 
The continuous class attribute. 


Input attribute(s) 
One or more continuous and/or discrete input attributes. 


Postcondition 
The prédictions and the residuals columns [two new continuous 
attributes] are added in the dataset. 


ce qui donnera: 
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A-fA Dataset (ArbreRegressionCART, xls) 
G-* x Define status 1 
+, Regression tree 1 


on fait un clic droit sur l'opération pour choisir View: 


Of] Dataset (hrbreRegressionCART.xls) 
G-#% Define status 1 


Parameters.… 


Execute 


et on admire le résultat dans la fenêtre de sortie: 


Tree Parameters 
Rnd generator dl 
Max Number of Clusters 50 
Distance normalization (e] 


Min. size for split 


Min. size of leaves 2 
Max, depth 10 
Goodness threshold 0.00 
Pruning setiue 33% 
Delta 0.0010 
Show all tree sequence 0 


Global results 


Endogenous attribute Propriétaire 
Examples 24 
Rz 0,3403 


Trees sequence (# 3) -- Within-Groups Sum of Squares 


H° #Leaves WSS (growing set) WSS (pruning set) 


3 1 1.0000 1.0000 
Fi 2 0,5455 1.6033 
fl 4 0,3750 1.2500 


Tree description 


Number of nodes 7 
Number of leaves 4 DNS 
Tree 


e Surface < 18.0000 then avg{Propriétaire) = 2.0000 (std-dev = 0,0000, with 5 examples (31.25%) 
e Surface >= 168.0000 
« Surface < 19,8000 then avg{Propriétaire) = 1.5000 (std-dev = 0.5774, with 4 examples [25.00%] j 
e Surface >= 19.6000 
e Revenus < 57,1500 then avg{Propriétaire) = 1.5000 (std-dev = 0,7071, with 2 examples [12.50%]) 
e Revenus »= 57,1500 then avg{Propriétaire) = 1.0000 (std-dev = 0.0000, with 5 examples [31.25%] ) 


Computation time : O ms, 
Created at 08.02.2012 12:17:42 
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Nous voyons que nous obtenons la même chose que dans le cours théorique à la différence 
que l'arbre s'arrête plus tôt. 
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Exercice 19.: K-NN (K nearest neighbors) 
Tanagra V1.4.48 


Nous avons vu en cours l'approche des Kk plus proches voisins. Nous allons appliquer ici ce 
qui a été présenté en cours avec le fichier Excel des fleurs d'Iris 


Es) Fisherlris.xls 


dont le contenu est: 


À B (> D E 
M Sepal length! Sepal width | Petal length! Petal width us 
2 79) 38) 64) Zi vigics | 
EE 


_ 


EE ET 
12 
Fe 
M 50 49) 15f vero | 
D GS 52 57 Zune 
+ A 


Î. virginica 


Î. versicolor 


. versicolor 


Ensuite, nous l'ouvrons dans Tanagra selon la méthode habituelle: 
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Œ-f5 Dataset (Fisherlris.xls) 


Database : C:\UsersUsoz Vincent\Desktop\Fisherlris.xls 


Download information 


Workbook information 
Number of sheets 1 
Selected sheet Feuil1 
Sheet size 151% 
Dataset size 151x5 

Datasource processing 
Computation time 62ms 
ällocated memory 9KkB 


Dataset description 


5 attribute(s) 
150 example(s) 


Ensuite, nous ajoutons le sélecteur Define Status: 


AFF Dataset (Fisherlnis,.xls) 
Œ-Àÿ Define status 1 


avec en Target: 


Parameters 
ättributes : 
Target | Linpui lustre 


C Sepal length Species 
C Sepal width 
C Petal length 
C Petal width 
D Species 


|! | 


et en Input: 
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Parameters 


&ttributes : 


C Sepal length 
C Sepal width 


C Petal length 
C Petal width 
D Species 


Sepal length 
Sepalwidth 
Petal length 
Petal width 


|| 


êA | Clear all 


Ensuite nous rajoutons le sélecteur Select first examples du groupe Instance selection: 


et dans les paramètres du sélecteur: 


EF] Dataset (Fisherlnis.xls) 
ER Define status 1 


G- FE 


Arf Dataset (Fisherinis.xls] 
G-Éÿ Define status 1 


œ-# EE 


Parameters… 


Execute 


View 


Nous prenons les 60 premières lignes du fichier comme données d'entraînement (choix un peu 


arbitraire): 


Ensuite, nous rajoutons l'opérateur X-NN du groupe Spv Learning: 
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Off] Dataset (Fisheriris.xls) 
G-Fj Define status 1 
G-# Select first examples 1 
&- È Supervised Learning 1 (K-NN) 


Ensuite, nous choisissons le type de distance et le nombre de k voisins pour l'apprentissage: 


m 


Parameters 


Neighborhood size: 5 


— Distance for continuous attributes 
©) HEOM (wilson-Martinez, JéIR'97) 


© Euclidian 


Nous exécutons l'opérateur et nous avons alors: 


GE Dataset (Fisherinis.xls) 


F4 Define status 1 .e: 
nu Classifier performances 


dE er ns 


Values prediction Confusion matrix 


Classifier characteristics 


Data description 


Target attribute Species (3 values) 
# descriptors 4 


TCalcSpvKNN 


Nous voyons que le classificateur est très bon. Pour avoir le détail, nous ajoutons l'opérateur 
View Data Set du groupe Data visualization: 
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Arf Dataset (Fisherinis.xls] 
G-Fÿ Define status 1 
G-# Select first examples 1 
G-[»] Supervised Learning 1 (K-NN) 
5 View dataset 1 


et nous l'exécutons pour avoir les détails des prédictions (nous avons mis en évidence l'un 
deux ceux qui est mal prédit): 


Re Diagram Component Window Help 


D | 


Default title 
G-fF Dataset (Fisheriris.xls) 
-ÿ Define status 1 

&-# Select first examples 1 
&- [9] Superised Learning 1 (K-NN) 
FF View dataset 1 


Maintenant injectons pour y mettre un Jeu de test, nous remettons un opérateur de sélection 
Define Status: 


Of] Dataset (Fisherlris.xls) 
GP Define status 1 
G-# Select first examples 1 
G-[] Superised Learning 1 (K-NN) 
View dataset 1 


Define status 2 


avec en Target: 


85/145 


TG Vincent ISOZ 


TANAGRA (Ricco RAKOTOMALALA) 


Parameters 


&ttributes : 


Target Input | Illustrative 
C Sepal length Species 

C Sepal width 

C Petal length 

C Petal width 

D Species 

D pred_Spvinstance_1 


Clear all Clear selected 


CE _o || Cancel Il Help | 


et en /nput: 


Parameters 


&ttributes : E 
Target Input |Ilustrative 


C Sepal length pred_Spvinstance_1 
C Sepal width K 

C Petal length 

C Petal width 

D Species 

D pred_Spvinstance_1 


|| |] 


Lo _][ cancel || Her] 


Ensuite, nous rajoutons l'opérateur Test du groupe Spy learning assessment (nous aurions pu 


faire la même chose pour la régression logistique mais ayant l'équation explicite c'était moins 
utile alors que là c'est très utile!): 


(a 


-FF] Dataset (Fisheriris.xls) 
G-Æÿ Define status 1 
B-# Select first examples 1 
-[+] Superised Learning 1 (K-NN) 
5 View dataset 1 
-Ff Define status 2 


L. ri Test 1 


et dans ses paramètres, nous avons: 
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Parameters 


Used examples 


© Selected 


© Unselected 


Nous prenons Unselected ce qui prendra les 150-60=90 données restantes. 


Et nous exécutons pour obtenir: 


Default title | 
E-fE Dataset (Fisherlris.xls) 
-Æÿ Define status 1 
É2 Select first examples 1 


EE 


View dataset 1 


Evaluation set : unselected examples 


JO predSpuimstaneet 
Ga Define status 2 
L hf Test 1 CE OS 
Values prediction Confusion matrix 
| Value Recall 1-Precision — ++ — 


l. virginica 0.9000 0.1000 
1. versicolor 0,9667 0.6375 


(levirginica 
lversicolor 

lsetosa 00000 10000 Misetosan 0 50 
Sum 


oe  æ 0 + 


Et nous rajoutons un composant View Dataset pour voir comment les données de test (ou 
données nouvelles) sont classées: 


Default title 
SF Dataset (Fisherlris.xls) 
É-ÿ Define status 1 
ë fs Select first examples 1 
ÉD! Superised Learning 1 (K-NN) 
View dataset 1 
EF Define status 2 
Gp Test 1 


— ps lengSepal widtPetal lengPetal vidtSpecies  [pred SpvInstance 1 


Nous pouvons aussi rajouter un opérateur Train Test du groupe Spv learning assessment: 
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QE Dataset (Fisheriris.xls) 
S-Fi Define status 1 
G-# Select first examples 1 
G-D] Supervised Learning 1 (K-NN) 
dE: View dataset 1 
a-Fÿ Define status 2 


Parameters 


Proportion of train set : 


Repetition of assesment: 


Save results 


Save error rate to file 


[C\Program Files X86)Tanagrate> =] 


et en exécutant l'opérateur, nous obtenons: 
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Default title 


E-f4 Dataset (Fisherlris.xls) 
Ex Define status 1 
d-# Select first examples 1 
&-[#] Supervised Learning 1 (K-NN) 
View dataset 1 
Rà Define status 2 
oÎ Train-test 1 
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Train-test parameters 
Train proportion 0,40 
Trials 5 


Dataset size : 150 
Tests error rate 


Trial Train size Test size Error rate 


1 60 90 0.0667 
#3 60 30 0.0333 
3 é0 90 0.0222 
4 60 90 0.0222 
5 60 30 0.0556 


Overral test error rate 


Values prediction Confusion matrix 


l. virginica 0,9463 0.0662 


levirginica. 
l.versicolor 09329  0.0544  Iversicolor 10 139 0 n 

«setosa 

Sum 


l.setosa 1.0000  0.0000 0 0 452. 152 
| LE 147 152 450 
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Exercice 20.: Classificaiton K-Means (nuée dynamique) 
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Nous allons ici vérifier la technique de clustering que nous avons étudié dans le cours 
théorique de Méthodes Numériques avec MS Excel et Minitab pour voir si nous retrouvons 


les mêmes résultats. 


D'abord ouvrez le fichier: 


pour vérifier qu'il contient bien les données utilisées lors du cours théorique: 


Ensuite, nous ouvrons Tanagra et création un nouveau projet basé sur ce fichier MS Excel: 
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Eu 


Re ER ES RE VERS 


KMeans.ds 


Observation 


1 
2 
3 
4 
5 
6 
J 
8 


Revenus 
60 
85.5 
64.8 
61.5 
87 
110.1 
108 
82.8 
69 
93 
51 
81 
75 
52.8 
64.8 
43.2 
84 
49.2 
59.4 
66 
47.4 
33 
51 
63 


Surface 
18.4 
16.8 
21.6 
20.8 
23.6 
19.2 
17.6 
22.4 

20 
20.8 
22 
20 
19.6 
20.8 
17.2 
20.4 
17.6 
17.6 
16 
18.4 
16.4 
18.8 
14 
14.8 
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Diagram title : 
KMeans 


Data mining diagram file name : 


[CProgram Files xX86)Tanagraidefaulttdm =] 


Dataset tt *.arff*.xls) : 
C\DesktopiKMeans.xls 


Checking Missing Values 


Ce qui donnera: 


@ File Diagram Component Window Help 
DE] 
a 


- Dataset (Kieans.xls) Workbook information 


Number of sheets 1 
Selected sheet  KMeans 
Sheet size 25x3 
Dataset size 25x3 
Datasource processing 
Computation time 46 ms 


ällocated memory 4KB 


Dataset description 
3 attribute(s) 
24 example(s) 


Attribute Category Informations 
Observation Continue 


Revenus Continue 


Surface Continue 


Components 
Data visualization Statistics | Nonparametric statistics | Instance selection | Feature construction | 


Feature selection Regression | Factorial analysis | PLS | Clustering | 


Spv learning | feta-spv learning | Spv learning assessment | Scoring | âssociation | 


> Correlation scatterplot LÉ Seatterplot with label 
EBExport dataset view dataset 
LE Scatterplot É: View multiple scatterplot 


Nous voulons faire un K-Means sur les revenus et la Surface donc nous prenons le sélecteur 
Define status où nous mettons en Input les deux variables à clusteriser: 
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| TANAGRA 1.4 #. 


@ File Diagram Component Window Help 


D œ 4] 


LAACALELLE AL LCR CERCLE CET ICT) 


E-ff Dataset (Kieans.xls) Workbook information 


À Lx Define status 1 Number of sheets 4 


Parameters 


&ttributes : 


C Observation Revenus 
C Revenus Surface 


Data visualization | 


Feature selection | 


Clustering 


Spv learning | hssociation 


> Correlation scatterplot LE Scatterplot with label 
EMExport dataset view dataset 
LE Scatterplot View multiple scatterplot 


Ensuite, nous rajoutons le composant K-Means du groupe Clustering: 
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@ File Diagram Component Window Help 


D | #à 


5 Dataset (Kieans.xls) 
OR Define status 1 


À Target : 0 
Le K-Means 1 


Input : 2 
Iustrative : 0 


Attribute Target Input Ilustrative 
Observation - 
Revenus e 


Surface ë 


Computation time : 0 ms, 
Created at 08/08/2012 08:56:43 


| Components 
Data visualization | Statistics | Nonparametnic statistics | Instance selection 


Feature construction 


| | 
Feature selection | Regression | Factorial analysis | PLS | [ Clustering | 
| | 


Spy learning | eta-spy learning | Spv learning assessment | Scoring ässociation 


IS EM-Selection Bi Kohonen-SOM ES VARCLUS 
Pa Lva ST VARHCA 
ÉZNeishborhood Graph 4 VaRKiieans 


et dans les paramètres du composant nous mettons: 
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Parameters 


Number of clusters : 
Max iterations : 
Number of trials : 


Distance normalization 
© None 


© Variance 


— Average computation 
© Forgy 


@ Mc Queen 


F Seed random generator 
© Random 


@ Standard 


K-Means parameters 


Clusters 3 
Max Iteration 10 
Trials 5 
Distance normalization none 


äverage computation McQueen 


Seed random generator Standard 


Nous exécutons et visualisons le composant et obtenons: 


Global evaluation 


Within Sum of Squares 1517,0291 
Total Sum of Squares 9146,2960 
R-Square 0,8341 
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Cluster size and WSS 


Clusters 3 

Cluster Description Size WsSs 
clustern°1 c_kmeans_1 9 229,4400 
clustern°2? c_kmeans_2 68 960,1149 
clustern°3 c_kmeans_3 7 327,4743 


R-Square for each attempt 


Number of trials 5 

Trial R-square 
1 0,812924 
2 0,795216 
3 0,807683 


5 0,834137 


Cluster centroids 


Attribute Cluster n°1 Cluster n°2 Cluster n°3 
Revenus  64,833334 91,425000  46,800000 
Surface 18,533333 19,750000  18,571428 


Et nous retrouvons bien les résultats obtenus avec MS Excel et Minitab. Cependant nous 
souhaiterions un peu plus de détails avec Minitab. Pour cela, nous rajoutons un composant 
View dataset que nous exécutons et visualisons: 
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ŸFile Diagram Component Window Help 


œ à 


Defaui te ObservaticRevenus |surface }ciuster_Kn 


B-f5 Dataset (Kieans.xls) 
o-#ÿ Define status 1 
d-l% K-Means 1 
7 View dataset 1 


| 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 
| | 


Data visualization Statistics | Nonparametric statistics | Instance selection | Feature construction 
Feature selection Regression | Factorial analysis | PLS | Clustering 


Spv learning feta-spv learning | Spv learning assessment | Scoring | âssociation 


> Correlation scatterplot EMExport dätaset LE Scatterplot LE Scatterplot with label View dataset 
« ml 


Nous avons alors sur la droite exactement le même tableau que celui obtenu avec MS Excel 
ou Minitab pour montrer quels individus appartiennent à quel Cluster. 


Maintenant regardons les caractéristiques de groupes (c'est à partir de Maintenant que le 


logiciel est bien plus efficace que les autres). Nous ajoutons un composant Define status avec 
en Target les clusters: 
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M File Diagram Component Window Help 
D œ | 
E-f5 Dataset (Kileans.xls] | 
E-ÿ Define status 1 
E-le% K-Means 1 
E-fF View dataset 1 
= Fe Define status 2 


Parameters 


&ttributes : 


Target | Input |lllustrative 


C Observation Cluster_KMeans_1 
C Revenus 


CAIAI LE Ce Gus) 


Data visua Feature construction 
Feature sell Clustering 


âssociation 


Correlation scatterplot ÉMexport dataset LE Scatterplot LE Scatterplot with label Fview dataset 
SE PE 


Spv learning Aeta-spy learning | Spv learning assessment | Scoring 


et en Input les variables: 
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LE Diagram Cormponent Window Help 


D œ H| à 


B-f5 Dataset (Kieans.xls) 
E-Rÿ Define status 1 
E-{e K-leans 1 


Parameters 


&ttributes : 


Input |Ilustrative 
C Observation Revenus 
C Revenus Surface 


D Cluster_KMeans_1 


EE] |] 


= s 


Data vue 


Feature sel 


Spv learning | Meta-spv learning | Spv learning assessment | Scoring 


Feature construction 
Clustering 


ässociation 


+ Correlation scatterplot ÉMExport dataset LE Scatterplot LE Scatterplot with label 
« mi ] 


view dataset 


Et nous y ajoutons le composant Group characterization: 
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File Diagram Component Window Help 


D œ | 


Default title 
Off Dataset (Kieans.xls) 
Ër Æÿ Define status 1 
cle, K-Mieans 1 
G-FÆ View dataset 1 
E-#ÿ Define status 2 
è [U Group characterization 


Normalization : 0 


Description of “Cluster_KMeans_1" 


Cluster_KMeans_1-c_kmeans_1 Cluster_KMeans_1-c_kmeans_2 


Examples 137,5%]9  Examples 
âtt- Test 


Dasc las Group  Overral 


18,53 18,95 


ren OS ESA EE 


[33,3 %] 8 


Group Overral 


(11,46) (19,79) 


ns SE 64 1 1975 18,95 


(4,87) (19,79) 


(2,43) (2,43) 


Cluster_KMeans_1-c_kmeans_3 
Examples 129,2 #4 7 


Att- 


Dess Group  Overral 


(6,84) (19,79) 


Components 


Regression | Factorial analysis 


Spv learning assessment | Scoring 


Data visualization | [ Statistics | Nonparametric statistics | 


| PLS | Clustering 


| Association | 


Instance selection | Feature construction | Feature selection 


| Spv learning | Meta-spv learning 


[8 Boxs À Test L# Hotelling's T2 


ZE Fishers test TiLevene’s test 


FÉlanova Randomized Blocks [I Group characterization LË Linear correlation 
5 Bartlett's test Group exploration L£ore Univariate cont stat 


À Normality Test 


À Brown - Forsythe's test | Hotelling's T2 Heteroscedastic lil One-way ANOVA 


L& One-way MANOVA 


LE Paired T-Test 
tr Paired V-Test 
LÉ Partial Correlation 


lu, T-Test Unequal Variance 
BÉUnivariate continuous sta! 
Hll Univariate discrete stat 


LÉ Semi-partial Correlation +% Univariate Outlier Detecti 


Liu T-Test 


li: Welch ANOVA 


«I 


LL 


Au vu des résultats, nous nous rendons compte qu'il aurait été peut-être plus malin de laisser 
la colonne Propriétaire dans le fichier d'origine afin d'avoir une caractérisation utilisant ce 
group pouvant peut-être aider à la conclusion... 


Pour finir, ajoutons un opérateur Scatterplot: 
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TANAGRA 1444 -[S 
File Diagram Component Window Help 


D & 4| à 


Revenus A Cluster_KMeans_1 
Off Dataset (Kieans.xls) RE : En 


É Fi Define status 1 (X1) Surface vs. (K2) Revenus by (Y) Cluster_KMeans_1 
E-le% K-Means 1 
(E:) View dataset 1 


o c_kmeans_1 à c_kmeans_2 0 c_kmeans_3 


J Surface SA 
Components 


| Data visualization Statistics Nonparametric statistics | Instance selection | Feature construction | Feature selection 


Regression Factorial analysis PLS | Clustering | Spv learning | Meta-spv learning 


Spv learning assessment Scoring Association | 


> Correlation scatterplot E: View multiple scatterplot 
EMExport dataset 

LE Scatterplot 

LE Scatterplot with label 

view dataset 


et nous voyons bien comment sont composés les 3 clusters. Si jamais pour grossir les points 1l 
faut aller dans le menu Component: 


Window Help 


D & | Copy results 
Copy chart 
o Dataset (Ki Increase point size Ctrl+Q 
Er Xi Define < Dechfse point size Ctrl+W 


-le® k-Me 
ff View dataset 1 
L. Lé Scatterplot 1 


nee reer ee 
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Exercice 21.: Clustering ID-3 (Iterative Dichotomiser 3) 
Tanagra V1.4.48 


Nous allons ici vérifier la technique de clustering ID-3 que nous avons étudié dans le cours 
théorique de Méthodes Numériques et calculé à la main. 


Nous allons donc travailler avec le fichier suivant et donc avec les mêmes données que dans 
le cours théorique: 


l Numéro Couleur Contour Point Forme 

2 1 Vert Pointillé Non Triangle 

3 2 Vert Pointillé Oui Triangle 

EI 3 Jaune Pointillé Non Carré 

5 4 Rouge Pointillé Non Carré 

6 5 Rouge Plein Non Carré 

7 6 Rouge Plein Out Triangle 

8 7 Vert Plein Non Carré 

9 8 Vert Pointillé Non Triangle 

10 9 Jaune Plein Oui Carré 

11 10 Rouge Plein Non Carré 

12 11 Vert Plein Out Carré 

13 12 Jaune Pointillé Oui Carré 
13 Jaune Plein Non Carré 

15 14 Rouge Pointillé Oui Triangle 


Nous importons cette liste comme à l'habitude dans Tanagra (la méthode étant toujours la 
même). 


Nous mettons le sélecteur Define status: 


Of] Dataset (ID6,xls) 
G-ÿ Define status 1 


avec comme Target la colonne Formes (car c'est ce que nous voulons deviner): 
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Parameters 


&ttributes : 


Target Iustrative 
C Numéro Forme 
D Couleur 
D Contour 
D Point 
D Forme 


_&| Clear all Clear selected | 


et comme Input les trois autres champs (peut importe l'ordre d'insertion): 


Parameters 


C Numéro Couleur 
D Couleur Contour 
D Contour Point 

D Point 
D Forme 


_&/ 8! | 


Ensuite, nous ajoutons l'opérateur ID3 du groupe SPV Learning: 


EF] Dataset (IDG.xls) 
O4 Define status 1 


ï.…. Supervised Learning 2 (IDG) 


Nous allons dans les options Supervised parameters…: 
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Of Dataset (IDG.xls) 
O-Éÿ Define status 1 


N Supervised parameters. 


Execute 


View 


pour mettre: 


Parameters 


- Tree stopping rule 


Min size for split: 1 


Min size ofleaves: 2 


Max depth ofthe tree : 5  [ 


Min entropy gain for splitting : [0.0300 


Ensuite, nous exécutons le composant en cliquant sur Excecute comme à l'habitude: 


2-f] Dataset (IDG.xls) 
S-#} Define status 1 
MOI Suneniced lesrnino 2 {ITA 
Parameters.… 


Supervised parameters. 


| al = 
1ew 


et en faisons un View: 


JF] Dataset (IDG.xls) 
ER Define status 1 
È Superviseg lssrmina 9 f 


Parameters.… 


Supervised parameters. 


Execute 


View 


Pour obtenir exactement les résultats correspondant à ceux calculés à la main: 
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1D3 parameters 
Size before split 1 
Size after split Fa 
Max depth of leaves 5 
Goodness of split thresold 0,0300 


Classifier performances 
LL 


Values prediction Confusion matrix 
| Value Recall 1-Precision RER 
Triangle 1,0000 0,0000 
Carré 1,0000  O0,0000 Carré” 0 9 9 


Sum 5 9 14 


Classifier characteristics 


Data description 


Target attribute Forme (2 values) 


# descriptors 3 


Tree description 


Number of nodes G] 
Number of leaves 


Decision tree 


e Couleur in [Vert] 
e Contour in Pointillé] then Forme = Triangle (100,00 % of 3 examples) 
e Contour in [Plein] then Forme = Carré (100,00 % of 2 examples) 
e Couleur in [Jaune] then Forme = Carré (100,00 % of 4 examples) 
e Couleur in [Rouge] 
e Point in [Non] then Forme = Carré (100,00 % of 3 examples) 
e Point in [Oui] then Forme = Triangle (100,00 % of 2 examples) 


Dommage qu'il n'y ait pas de diagramme cependant... cela aiderait à la compréhension. 
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Exercice 22.: HAC (Hierarchical Ascendant Clustering) 
Tanagra V1.4.48 


Nous allons ici vérifier la technique de clustering HAC que nous avons étudié dans le cours 
théorique de Méthodes Numériques et calculé à la main. 


Nous partons de la liste suivante: 


Nous l'importons dans Tanagra comme à l'habitude et lui ajoutons le sélecteur Define status: 


Off] Dataset (CAH,xls) 


D Define status 1 


avec le champ Nom dans les Target: 


Parameters 


ättributes : 

— | Target | Input [lustrative 
Bel Nom | ER 
C Goût 
C Odeur 


_B| _B | _&# | Clear all Clear selected 


et dans Input le reste: 
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Parameters 


D Nom Goût 
C Goût Odeur 


TC CESR 


Eu 


EEE &| 


Ensuite, nous ajoutons le composant HAC du groupe Clustering: 


EF] Dataset (CAH,xls) 
G-Àÿ Define status 1 


Et nous exécutons le composant pour avoir: 


Repon 
en —— 
nn a | 
L.fTh HAC 1 
* clusters 
Detection äutomatic 
Data transformation 
Transformation None 
Visualization 

Index selection (e] 

Tree structure 1 

änova per variable (a) 


Nous cliquons sur l'onglet Dendrogram et apparaît alors le même diagramme que celui 
obtenu avec les calculs manuels à l'exception des valeurs de l'axe vertical (la différence 
venant juste d'une convention): 
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Report Dendrogram | 


H&C -- Dendrogram 


1 examples (20.0#) 


S1 l'on reste appuyé avec le bouton gauche de la souris sur chaque point, nous retrouvons les 
nom des lignes de la liste d'origine. 
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Exercice 23.: Classification naïve bayésienne 


Tanagra V1.4.48 


Comme dans le cours théorique, nous partons des données suivantes: 


Exceptionnellement nous allons faire l'analyse avec RapidMiner car la sortie de Tanagra n'est 


Exemple Couleur 
1 Rouge 
2 Rouge 
3 Rouge 
4 Jaune 
5 Jaune 
6 Jaune 
7 Jaune 
8 Jaune 
9 Rouge 

10 Rouge 


4 


Type Origme 


Sports Domestique 
Sports Domestique 
Sports Domestique 
Sports Domestique 
Sports Importé 
SUV Importé 
SUV Importé 
SUV Domestique 
SUV Importé 
Sports Importé 


pas agréable du tout et l'interprétation pour l'usage pratique peu adaptée. 


Donc nous ouvrons RapidMiner: 
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Exercice 24.: ANOVA à un facteur 
Tanagra V1.4.36 


Nous allons prendre ce fichier qui MS Excel qui nous est connu mais qu'il a fallu restructurer 
pour Tanagra (voir cours sur MS Excel): 


Æ)ANOVA xs 


contenant: 


Pièces Equipe 
78 Equipe 1 
88 Equipe 1 
90 Equipe 1 
77 Equipe 1 
85 Equipe 1 
88 Equipe 1 
79 Equipe 1 
77 Equipe 2 
75 Equipe 2 
80 Equipe 2 
83 Equipe 2 
87 Equipe 2 
90 Equipe 2 
85 Equipe 2 
88 Equipe 3 
86 Equipe 3 
79 Equipe 3 
93 Equipe 3 
79 Equipe 3 
83 Equipe 3 
79 Equipe 3 


Nous l'importons dans Tanagra en utilisant la même procédure que les exercices précédents: 


TANAGRA 1.436 - [Dataset (ANOVA xls)] 


# File Diagram Component Window Help 
D a Gi | à 


Dataset (ANOVA,xls) 


Nous y ajoutons un sélecteur de type Define status comme pour les exemples précédents: 
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| FAlDataset (ANOVA.xIs) 
Define status 1 


mais avec la variable d'intérêt dans Target: 


Define attribute statuses 


et la variable de classement dans Input: 
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Define attribute statuses 


On ajoute ensuite l'opérateur One-way ANOVA: 


HÉl4NOVA Randomized Blocks 


[I Group characterization EF Linear correlation 


ZE Bartletts test Group exploration LÉiiore Univariate cont stat 
à Box's A Test Es Hotelling's T2 À Normality Test 
7 Brown - Forsythe's test lé Hotelling's T2 Heteroscedastic ra) 
ZE Fisher's test Ji Levene's test [$ One-way ANOVÉ 
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Description 

One way analysis of variance: compare the average of continuous 
TARGET attributes according to groups defined by INPUT attributes. 
IF several TARGET and INPUT attributes are defined, the component 
computes the SNOVÉ of each pair of TARGET-INPUT attributes. 


Precondition 

At least one or more discrete and continuous attributes must be 
available together. The TÉRGET and INPUT attibutes must be 
defined. 


Target attribute(s) 
The continuous dependent variables(s]. 


Input attribute(s) 
The discrete factor(s]. 


Postcondition 
None. 


afin d'avoir: 
 FlDataset (ANOVA.xIs) 
Lil One-way ANOVA 1 


et on exécute et affichons le résultats comme dans les exemples précédents pour avoir au 
final: 


Parameters 


Sort results no 


Attribute_Y Attribute_X Description Statistical test 
Equipe 1 7 Gr 5403 (source Sumofsquare Da | 
Equipe 2 7 82.4286 5.4116 BSS 8.0000 2 
Equipe 3 a 83,8571 5,4292 WSS 530,2857 18 
Pièces Equipe 
AU 21 83.2857 5,1879 TSS 538.2857 20 
Fisher's F 0.135776 0.873924 


Computation time : 0 ms. 
Created at 30.04.2011 11:03:58 


Nous retrouvons exactement les mêmes chiffres que dans les autres cours donc il nous avons 
les mêmes conclusions. 
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Exercice 25.: ANOVA de Friedman par les rangs 
Tanagra V1.4.48 


À nouveau le but ici va être de vérifier (comparer) les calculs faits à la main dans le cours 
théorique ainsi qu'avec Minitab 15. 


D'abord, nous partons du fichier Excel suivant pour Tanagra (remarquez la structure 
particulière par rapport à la présentation utilisée dans le cours théorique et Minitab): 


D 

l Peur Joie Tnistesse Calme 
2 23.1 22.7 22.5 22.6 
3 57.6 33,8 23.1 33.1 
À 10.5 9.7 10.8 8.3 
5 23.6 19.6 2 li 21.6 
6 11.9 13.8 13.7 13.3 
fl 54.6 47.1 39.2 37 
8 21 13.6 13.7 14.8 

20.3 23.6 16.3 14.8 


Nous importons comme à l'habitude dans Tanagra et mettons le sélecteur Define Status: 


Of] Dataset (TestFriedman.xls) 
4 Define status 1 


et dans les paramètres nous mettons uniquement tous les champs en Input: 


(Define attribute stat 


Parameters 


ättributes : u 
Input |Illustrative 


C Peur Peur 

C Joie Joie 

C Tristesse Tristesse 
C Calme Calme 


Clear all Clear selected 


eme erTes 


Ensuite, nous ajoutons le composant Friedman's ANOVA by rank sans rien changer ni 
paramétrer: 
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Q-fF Dataset (TestFriedman.xls) 
G- *à Define status 1 


tes MER Friedmans ANOVA by Ranks 1 


Nous exécutons le tout et obtenons: 


Results 
Friedman Statistic 
27,0 3,3750  Frideman Fr 6,45000 
Joie 20,0 2,5000 dif. 
Tristesse 19,0 2,3750  p-value He 
Calme 14,0 1,7500 


Soit les mêmes valeurs que dans le cours théorique et dans Minitab15. 
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Exercice 26.: Tests de Levene et Brown-Forsythe 
Tanagra V1.4.36 


Nous allons ici vérifier si nous retombons sur le même résultat que celui obtenu en cours lors 
de l'étude théorique et la démonstration mathématique des tests de Levene et de Brown- 
Forsythe. 


Nous allons prendre ce fichier qui MS Excel qui nous est connu mais qu'il a fallu restructurer 
pour Tanagra (voir cours sur MS Excel): 


5] ANOVA _Levene_BF.xs 


contenant: 


IN Pièces Equipe 

2 78 Equipe 1 
88 Equpe 1 
90 Equpe 1 
77 Equipe 1 
85 Equpe 1 
88 Equipe | 
79 Equipe 1 
77 Equpe 2 
75 Equpe 2 
80 Equipe 2 
83 Equipe 2 
87 Equipe 2 
90 Equipe 2 
85 Equipe 2 


Nous l'importons dans Tanagra en utilisant la même procédure que les exercices précédents: 


TANAGRA 1.436 - [Dataset (ANOVA.xls)] 


# File Diagram Component Window Help 


C œ 4 | 


-fF] Dataset (ANOW4, xls) 


Nous y ajoutons un sélecteur de type Define status comme pour les exemples précédents: 


” FADataset (ANOVA.xIs) 
Le Define status 1 
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mais avec la variable d'intérêt dans Target: 


Define attribute statuses 


Parameters | 


ättributes : 
Target Imput  |Illustrative | 


Pièces 
= Equipe 


_Æ/|_E | | [_Ciesrall | Clear selected | 


OK | Cancel | Help | 


et la variable de classement dans Input: 


Define attribute statuses 


Parameters | 


ättributes : : 
Target Input | llustrative | 


Equipe 


_R|EAl | Clear all | Clear selected | 


OK | Cancel | Help | 
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Off] Dataset (ANOVA, xls) 
ER Define status 1 


D 4— 


RE Levene's test 1 


Parameters… 


Execute 


pour obtenir: 


Parameters 


Sort results no 


Attribute_Y Attribute_X Description Statistical test 
Equipe 1 83,5714 Levene's \ 0,062976 
Pièces Equipe Equipe 2 Ta 82,4286 5,4116 df 2/18 
Equipe 3 7 83,8571 5,4292  p-value 0,939172 
AU 21 83,2857 5,1579 


Computation time : Ü ms, 
Created at 16/08/2013 16:34:39 


Nous obtenons la même chose que les calculs faits à la main! Et pour Brown-Forsythe nous 
effectuons pareil en ajoutant l'opérateur Brown-Forsythe's test: 


Of] Dataset (ANOVA_Levene_BFxls) 
#3 Define status 1 
es Z5 Levene's test 1 


Lu F Brown - Forsythe's test 1 


Parameters.… 


Execute 


“Ep 


et nous avons alors: 
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Parameters 


Sort results no 


Attribute_Y Attribute_X Description Statisticaltest 
k 83,5714 5,4423 Brown & Forsythe's W 0,036036 
Pièces Equipe 
— 2 F4 82,4286 5,4116 df 1/12 
Al 14 83,0000 5,2477  p-value 0,852614 


Soit le mêmes résultats que ceux faits à la main et dans Minitab (mais avec moins de détails: 
sans les IC). 
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Exercice 27.: Analyse en Composantes Principales pure (ACP) 
Tanagra V1.4.48 


Le but va être ici de vérifier si nous retrouvons à nouveau les calculs fait à la main suite à la 
démonstration mathématique des concepts théoriques sous-jacents à l'A.C.P. 


Donc nous allons prendre aussi les données d'Iris de Fisher: 


À B e D 
| 
5.1 53 1.4 


E WU NN 


ll PE LE 


1 
2 
3 
4 
5 
6 
7 
8 


Comme à l'habitude, nous importons ces données dans Tanagra: 
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* TANAGRA 1.448 - [Datase 
œ File Diagram Component Window Help 


D & | # 


Download information 


Dataset (ACP.xls) 
Workbook information 


Number of sheets 1 
Selected sheet ACP 
Sheet size 16 x 4 
Dataset size 16 x 4 
Datasource processing 
Computation time 47 ms 


ällocated memory  5KB 


Dataset description 


4 attribute(s) 
15 example(s) 


Attribute Category Informations 
Fleur n° Continue S 
Longueur du sépale Continue - 
Largeur du sépale Continue - 


Longueur du pétale Continue - 


Nous ajoutons le sélecteur Define Status: 


EF] Dataset (ACP.xls) 
.….#% Define status 1 


avec en /nput les données suivantes: 
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Parameters 


ättributes : x 
Iustrative 


C Fleurn° Longueur du sépale 
C Longueur du sépale Largeur du sépale 
C Largeur du sépale Longueur du pétale 


BEN BEN &| 


Ensuite, nous ajoutons l'opérateur Principal Component Analysis du groupe Factorial 
Analysis: 


Of] Dataset (4CP.xls) 
G-Éÿ Define status 1 


ES Principal Component Analysis 1 


et dans les paramètres de l'opérateur, nous prenons: 
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Parameters 


# extracted components 


EN 
() all 


© limited to 


D Vl Analyze : Correlation matrix 
KMO and Bartlett's test of sphericity 
Display the corr. & partial corr. matrices 
Compute Cos2 and CTR for cases 


Display reproduced & residual correlations 


Sortvariables acc. loadings 


et nous exécutons le composant pour avoir pour avoir: 


Humber of asked factors : 3 

Compute COS2 and CTR : 0 

Standardizing attributes : 1 

Bartlett's test and MSA (KMO indices) : 0 

Correlations and partial correlations : 1 

Reproduced correlations : 0 

Sort variables according to loadings : 1 je 


Eigen values 


Matrix trace 3,000000 
Average 1,000000 


Donc nous retrouvons bien la trace de valeur 3.00 et la moyenne de 1.00. Ensuite pour la suite 
Tanagra donne: 
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Axis Eigen value Difference Proportion (%) Histogram Cumulative (%) 


1 2,030183 1,145628 7,64 ———————— 67,67 % 
2 0,884555 0,799293 29,94 — 97,16 % 


3 0,085262 ? 2,64 % ü 100,00 % 
Tot. 3,000000 = = = = 


La aussi nous retrouvons les données calculées à la main. La suite donnée par Tanagra: 


Significance of Principal Components 


Global critical values 


Eigenvalue table - Test for significance 


Eigenvalues - Significance 


Axis Eigenvalue res 


critical values 
1 OS 255 
2 L 0,884555 …  0,833333 
3 0,085262 0,333333 


n'a pas été étudiée en cours (exceptée la valeur numérique des trois valeurs propres bien 
évidemment!). 


Ensuite Tanagra donne les saturations et les score de ce qui est normalement sujet de 


l'Analyse Factorielle sans rotation. Nous reviendrons là-dessus avec l'exemple que nous 
avions étudié dans le cours théorique pour l'Analyse Factorielle: 
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Factor Loadings [Communality Estimates] 


Attribute Axis_1 Axis_2 Axis_3 
- Corr, % (Tot. %] Corr, % (Tot. %) Corr. % (Tot, %] 
Longueur du pétale 0,971 94 % (94 %) -0,11016 1 #96 %) -0,21088 4% (100 %) 
Longueur du sépale 091333 83 % (83 %) -0,35768 13 %(96 %) 0,19467 4 %(100 %) 


Largeur du sépale -0,50261 25 %625 %) ET rar QE -0,05377 0 4100 %) 


Var. Expl. 2,03018 68%(68%)  0,86455 29%(97%)  0,08526 3 %(100 %) 


Factor Score Coefficients 


Attribute Axis_1 Axis_2 Axis_3 
Longueur du sépale 0,6410021 -0,3805022 0,6666982 
Largeur du sépale -0,3527505 -0,9174154 -0,1541631 


Longueur du pétale 


0,6816765 -0,1171292 -0,7222170 


Ensuite Tanagra donne la matrice des corrélations que nous avions calculée (bien évidemment 
obligatoirement) dans le cours théorique avec les mêmes valeurs: 


Matrices 


Correlations 


Longueur Longueur Largeur 
du pétale dusépale du sépale 


Longueur du pétale .1,00000 0.885456 -0,38179 
Longueur du sépale 0.885456 .1,00000 -0,16090 
Largeur du sépale  -0,38179  -0,16090  1,00000 


Ensuite Tanagra donne les corrélations partielles (maïs cela n'est normalement pas 
directement liée à l'A.C.P.). donc nous ne l'avions pas calculé dans le cours théorique, nous le 


mettrons donc de côté: 
Partial Correlations Controlling all other Variables 


Longueur Longueur Largeur 
du pétale dusépale du sépale 


Longueur du pétale .1,00000 0,90382 -0,52175 
Longueur du sépale 0,903 .1,00000 0,41243 
Largeur du sépale  -0,52175 0,41243 .1,00000 


et 1l vient automatiquement les deux tracés triviaux suivants qui sont donnés par Tanagra: 
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| Repot | Scree plot 


Scree plot Variance Explained 


Eigenvalue 
»  Propsrtionsf variance à 
Le 22 ES LE œ ei 


; 2 3 
Component Component 


Il est possible d'accéder directement aux données calculées, c'est-à-dire les projections dans le 
nouvel espace (calcul laborieux que nous n'avons pas fait dans le cours théorique). En effet, le 
composant ACP rajoute automatiquement une série de variables à l'ensemble de données. Il 
s'agit, pour chaque individu et pour chaque axe demandé, des projections sur les axes, des 
contributions et des cos. 


Pour visualiser le tableau de données associé, nous plaçons dans le diagramme le composant 
View Dataset du groupe Data visualization 


Arf] Dataset (ACP,xls] 
G-Fj Define status 1 
S-X Principal Component Analysis 1 
4 View dataset 1 


et nous double cliquons dessus pour obtenir: 
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La popularité de l'ACP repose en grande partie sur les représentations graphiques qu'elle 
propose. Elles nous permettent d'apprécier visuellement les proximités entre les observations. 


Dans notre cas, nous projetons les observations dans le premier plan factoriel. Nous voulons 
associer les identifiants aux points. Nous utilisons pour cela le composant SCATTERPLOT 
WITH LABEL (onglet DATA VISUALIZATION) que nous plaçons en dessous de l'ACP. 
Nous le paramétrons de manière à avoir en abscisse le premier facteur, en ordonnée le second 
facteur. 


àCP 


E Dataset (ACP,xls] 
-Æ$ Define status 1 
= X Principal Component Analysis 1 
= View dataset 1 


Parameters.… 


Execute 


Notons qu'il est très aisé avec Tanagra de passer d'un plan factoriel à un autre: 


Legend 
Fleurn° 


: : ) Example ID 

Longueur du sépale PCA_1_Axis_1 vs. PCA _1_Axis_2 Tor 
Largeur du sépale CR On) ©) (X: Y) values 
Longueur du pétale 
RE NES RE ES RS LS PE da Attribute value 
PCA ASS, Attribute ref. 

E 

# 

nu 

a 

O 

tré 


PCA _1_Axis_1 


PCä_1_éxis_1 4 
Il est possible de modifier la taille des étiquettes avec les raccourcis CTRL+Q et CTRL+W. 


Nous voyons que nous retrouvons la même forme de graphique au niveau visuel que celle 
obtenue dans le cours théorique maïs les données ne sont pas centrées réduites (du moins a 
priori). Le graphique a cependant exactement les mêmes valeurs que celui sorti par le logiciel 
Minitab. 
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Exercice 28.: Analyse Factorielle sans rotation (AF) 
Tanagra V1.4.49 


Voyons donc comment obtenir une analyse factorielle sans rotation et tout cela avec l'exemple 
qui nous a servi de bases pour les calculs à la main lors de la démonstration mathématique de 
la méthode. 


Nous importons donc comme à l'habitude les données suivantes: 


al 
l 


Candidat Finance Statistiques Normes 


] 
2 1 3 6 5 
5 2 7 3 3 
4 3 10 9 8 
5 4 3 9 7 
6 5 10 6 5 
dans Tanagra: 
Default title 


Dataset (AnalyseFactonielle,xls) 


Database : C:\UsersUsoz Vincent \ Documents Professionel Cours \DataMining\ExercicesFR\änalyseF actorielle, xls 


Download information 


Workbook information 
Number of sheets 1 
Selected sheet 4F 
Sheet size 6x4 
Dataset size 6x4 
Datasource processing 
Computation time Oms 


ällocated memory  5KB 


Dataset description 


4 attribute(s) 
5 example(s) 


Attribute Category Informations 
Candidat Continue 
Finance Continue 
Statistiques Continue 


Normes Continue 


Nous ajoutons le composant de sélection Define Status et mettons en Input les trois variables: 
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Parameters 
&ttributes : E 
Input |Ilustrative 


C Candidat Finance 
C Finance Statistiques 


= Statistiques Normes 
CPR 


NS 
_&]  (ctearal—) (clearselected) 


et c'est maintenant qu'intervient une petite subtilité de Tanagra: Si nous voulons retrouver les 
valeurs calculées en cours à la main et conformes au modèle mathématique sans rotation, 
nous devons utiliser le composant Principal Component Analysis: 


Of] Dataset (änalyseFactorielle,xls) 
G-#% Define status 1 


ES Cu Principal Component änalysis 1 


et pour être conforme à l'exemple particulier que nous avons vu dans le cours théorique, 
mettre les paramètres suivants: 
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Parameters 


r # extracted components 


© all 


© limited to 


(WlAnalyze : Correlation matrix 

CTKMO and Bartlet's test of sphericity 
Display the corr. & parti{\corr. matrices 
El Compute Cos2 and CTR for cases 


Display reproduced & residual correlations 


(V] Sortvariables acc. loadings 


En exécutant le composant, il vient dans un premier temps: 


 PrincipalComponent Anabsist 
D Parameters 
Humber of asked factors : 2 

Compute COS2 and CTR : 0 

Standardizing attributes : 1 

Bartlett's test and MSA (KMO indices) : 0 

Correlations and partial correlations : 0 

Reproduced correlations : 0 

Sort variables according to loadings : 1 


es 
Eigen values 


Matrix trace 3,000000 
Average 1,000000 
Axis Eigen value Difference Proportion (%) Histogram Cumulative (%) 


1 1,981463 0,973157 GO —— 66,05 % 


2 1,008306 0,998076 33,61 % 99,66 % 
3 0,010231 E 0,34 % 100,00 % 
Tot. 3,000000 - e = = 


valeurs des valeurs propres identiques à celles calculées en cours. Ensuite, nous avons tout en 
bas les deux tableaux qui nous intéressent: 
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Factor Loadings [Communality Estimates] 


Attribute Axis_1 Axis_2 
- Corr, % (Tot. #] Corr. % (Tot, %) 
Hormes 99 %(99 %)] -0,051391 0 (99 %) 
Statistiques 99 (99 %) 0,081531 1%(99 %) 
Finance -0,02987 0 % (0 %) lie 


%) 


où nous retrouvons bien les saturations calculées à la main dans le cours théorique au signe 
près (mises en évidence en rouge et nommées pour rappel en anglais "loadings"). 


Et le dernier tableau: 


Factor Score Coefficients 


Attribute Axis_1 Axis _2 
Finance -0,0212208 -0,9953835 
Statistiques -0,7062359 0,0811929 
Hormes -0,7076585 -0,0511807 


n'est pas contre pour les deux dernières colonnes pas conforme à ce que nous avons calculé 
manuellement dans le cours théorique ni conforme à ce que nous renvoie le logiciel Minitab. 
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Exercice 29.: Analyse Factorielle avec rotation VARIMAX 
Tanagra V1.4.49 


Le but va être ici de vérifier non pas les calculs faits à la main dans le cours théorique mais de 


vérifier que Tanagra redonne les mêmes résultats que Minitab ou que SAS pour les mêmes 
données que l'exemple précédent mais avec une rotation VARIMAX. 


Donc nous reprenons l'état précédent où nous avions: 


G-#% Define status 1 


et nous ajoutons l'opérateur Factor rotation du groupe Factor analysis: 


of Dataset (AnalyseFactonelle.xls) 
ER Define status 1 
G-X Principal Component änalysis 1 


Le + Factor rotation 1 


pour obtenir: 


Factors rotation 
Method VARIMAX 
# factors 2 
Reproduced correlations 0 


Sort variables according to loadings 1 


Rotated Factor Loadings 


Attribute Axis_1 Axis_2 
- Corr, % (Tot, %]) Corr. % (Tot, %) 
Statistiques  0,99572 99%(99%) -0,05900 0 #4(99 %) 
Normes … 0,99471 99%(99%) 0,07393 1 #(99 %) 
Finance 0,00723 0 %(0 #) 0m Los de 
Var. Expl. 196096 Gé%çé6x) 100881  **#(100 


%) 


où nous retrouvons bien les résultats de SAS! 
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Tanagra donne en-dessous le tableau des saturations sans rotation (tableau obtenu lors de 
l'exercice précédent!): 


vs. Unrotated Factor Loadinges 


Attribute Axis_1 Axis_2 
- Corr. % (Tot, %#] Corr. % (Tot, %] 
Statistiques -0,99413 99%(99%)  OOBIES 1 %(99 #) 
Hormes  -0,99613 99%(99%)  -0,05139 0 %(99 #) 
Finance -0,02987 0 %(0 %) 10 A 


%) 


et le score des facteurs après rotation: 


Factor Scores 


Attribute Axis_1 Axis_2 

Finance -0,0103745 0,9957173 

Statistiques 0,7085425 -0,0697833 
Hormes 


0,7057639 0,0626120 


132/145 


CG Vincent ISOZ 


TANAGRA (Ricco RAKOTOMALALA) 


Exercice 30.: Régression (linéaire) des moindres carrés partiels (régression 


linéaire PLS univariée: PLS1) 
Tanagra V1.4.48 


Le but va être ici de vérifier si nous obtenons ou pas les résultats des calculs vu dans le cours 
théorique lors de la lecture du l'ouvrage de M. Tenenhaus' sur la régression PLS univariée 
(PLS1), c'est-à-dire la régression sur des variables explicatives corrélées avec une unique 
variable à expliquer. 


Nous utiliserons donc les données suivantes: 


1) Dist Directe Reformat  Naptha The Naptha Cat:Polymere  Alkylat Essence Naturelle Reponse 


0.00 0.23 0.00 0.00 0.00 0.74 0.03 98.70 
0.00 0.10 0.00 0.00 0.12 0.74 0.04 97.80 
0.00 0.00 0.00 0.10 0.12 0.74 0.04 96.60 
0.00 0.49 0.00 0.00 0.12 0.37 0.02 92.00 
0.00 0.00 0.00 0.62 0.12 0.18 0.08 86.60 
0.00 0.62 0.00 0.00 0.00 0.37 0.01 91.20 
0.17 0.27 0.10 0.38 0.00 0.00 0.08 81.90 
0.17 0.19 0.10 0.38 0.02 0.06 0.08 83.10 
0.17 0.21 0.10 0.38 0.00 0.06 0.08 82.40 
0.17 0.15 0.10 0.38 0.02 0.10 0.08 83.20 
0.21 0.36 0.12 0.25 0.00 0.00 0.06 81.40 
0.00 0.00 0.00 0.55 0.00 0.37 0.08 88.10 


que nous importons comme à l'habitude dans Tanagra, ce qui donnera: 


PS TANAGRA 14497 
@ File Diagram Component Window Help 


[Dataset (PLS_Univariee.x|s) 


D œ | #à 


Œ Dataset (PLS_Univariee.xls) 


Database : C:\sers\Usoz Vincent \Desktop\PLS_Univariee,xls 


Download information 


Workbook information 
Number of sheets 1 
Selected sheet Feuil{ 
Sheet size 13x8 
N Dataset size 13x8 
Datasource processing 


Computation time Oms 


ällocated memory 10 KB 


Ensuite, nous ajoutons le sélecteur Define Status comme à l'habitude: 


Michel Tenenhaus, Régression PLS, Édition Technip, ISBN 2-7108-0735-1, Pages 75-83 
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Of] Dataset (PLS_Univaniee.xls) 
Œ-Fÿ Define status 


avec les paramètres d'entrée et de sortie suivants: 


Parameters 
&tributes : 
Target _|_ Input [lusratve 


C Dist_ Directe Reponse 
C Reformat 

C Naptha_Thermique 
C Naptha_Catalytique 
C Polymere 

C älkylat 

C Essence_Naturelle 
C Reponse 


|| |] 


Ensuite, nous ajoutons le composant PLS Regression: 


0 Défaut 


EF Dataset (PLS_Univariee.xls] 
G-Éÿ Define status 1 


PA PLS Resression 1 


et allons dans les paramètres pour prendre que deux variables intermédiaire: 


Parameters 


[V] Standardize attributes 


Number of axis : 
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Nous avons alors: 


Default title 


SA PASRegressiont 
EE A Parameters 
-Aÿ Define status 1 
:.PLS PLS Regression 1 (PLS parameters 
Number of axis 2 
Standardize 1 


Regression coefficients 


XIY Reponse 
Dist Directe  -12,563550 
Reformat -6,831159 


Haptha_Thermique -21,413985 
HMaptha_Catalytique -6,395198 


Polymere 3,677586 
Alkylat 8,978729 
Essence _Maturelle -30,667037 
constant 92,342201 


On retrouve bien les mêmes coefficients non normalisés que dans Minitab ou que ceux 
calculés à la main. 
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Exercice 31.: Export d'un résultat vers MS Excel 
Tanagra V1.4.36 


Nous souhaiterions montrer ici qu'il est possible rapidement d'exporter une analyse ainsi qu'un 
jeu de données traitées dans MS Excel. 


Pour commencer avec le premier cas reprenons l'exemple de l'exercice que nous avions fait 
sur l'Exercice 6.: Statistiques univariées continues multiples: 


-15/x| 


Default title 
E FA Dataset (Ventes.txt) 


ER View dataset 1 Attributes : 1 
Er Define status 1 Examples : 109 
Î -HË Univariate continuous stat 1 
Le rone status à 
| “ll Univariate discrete stat 1 Attribute Stats Histogram 
he ee Sites Vates CO Htogam 
Î 3 Group characterization 1 Femme] rares] 
G-% Define status 4 Average 18784.5448  x_<_10942.9203 7) 594 
L£ More Univariate cont stat 1. RENE TETE ou 0200 ee x < 19195.6406 ÉRRCT | 
Std dev. [Coef of variation] 15122.2731 [0.8050] 
HRPISEREE 010.849 .ésie | M/195:84062+< x 27446,7609 21 1927% D 
* E 
Ben ei 2690.00 _. 27448,7609_=<_x_<_35701,6813 8 734 M 
avec rabais 0 35701.6813_-< x_< 43954.é016 2 183% 
& 
15t*3rd quartile Range] SES he 43954.6016_=<_x_<_52207,5219 1 0.92% 
— ; 22005 (0.215) | 2220725219 -2€ x < 60460.4422 1 0.92% 
Kurtosis (std-dev) 5,6165 (0.4590) | 60460.4422_=< x_< 68719,3625 3 275] 
68713.3625_=< x_<_76966.2828 1 0.92% 
x>=_76966.2828 1 0.92% 


Computation time : O ms. 
Created at 07.05.2011 09:28:51 


Correlation scatterplot F2 View multiple scatterplot 

Export dataset À 
Ë Scatterplot 
 Scatterplot with label 

View dataset 


Nous allons dans le menu Component et nous cliquons sur Copy results: 


TANAGRA 1.4.36 - [More Univariate cont stat 1] 


et nous faisons un Coller dans MS Excel pour obtenir: 
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: 
Ë +) mm mi" #7 À 
LP 0 | Mis fe Metti f Styles dé S'supEme cu Trier et Rechercher et 
È se en forme re sous forme Styles de rier et Res er 
#37 um) 8 #8 conditionnelle  detsbleau-  cellules- | L1Format <27 fitrer- sélectionner + 
Style Cellules Édition 


| 


EEREBERE 


5 


ENENEUE 
& ke te 


_17 [Prix total avec rabais 


nous retrouvons donc bien les données textes mais par contre nous perdons les données 
visuelles comme les barre de données de l'histogramme. Heureusement cela peut être vite 
reproduit. 

Maintenant, reprenons l'Exercice 19.: K-NN (K nearest neighbors) 

Tanagra V1.4.48 

Nous avons vu en cours l'approche des Kk plus proches voisins. Nous allons appliquer ici ce 
qui a été présenté en cours avec le fichier Excel des fleurs d'Iris 


Fisherlris.xis 


dont le contenu est: 
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ñ |] 
À B 
À 


e D 
IN) Sepal length! Sepal width | Petal length! Petal width Species 


ré . Wirginice 


= 


j 


MIN 

| 
o|ololol|olo 
_ | J 


ESIPIES 


es 
+ 


. irginica 
. Wirginica 


— 


EE WU NN 
== 


. Wirginica 


on 
EN] 


. Wirginica 


mL 
NINT 
[nez] 


. Wirginica 


virginice 


En 


Ê 72] 36 ï . Wirginice 
ME RE OT ET (TE 
M 72 À 5e tél vigne | 
M 7 59  2'f vigne | 
ce SE ET M ET T2 
MD oo 31 49 15] verso | 
M si 524 57] 23h vignes | 
M so 2 sd 21e vigmee 

8 3. 


: 2.3{{. virginica 


virginica 


l 
] 


— 


Default title 


5 RES mt 


Database : C:\UsersUsoz Vincent\Desktop\Fisherlris.xls 


Download information 


Workbook information 
Number of sheets 1 


Selected sheet Feuil1 


Sheet size astxs 
Dataset size 151x5 
Datasource processing 


Computation time 62ms 
ällocated memory 9KkB 
Dataset description 


5 attribute(s) 
150 example(s) 


Ensuite, nous ajoutons le sélecteur Define Status: 


AFF] Dataset (Fisherins,xls) 
Œ-Àÿ Define status 1 


avec en Target: 
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Parameters 


&ttributes : 


Target 


C Sepal length Species 
C Sepal width 
C Petal length 
C Petal width 
D Species 


4/8 | 


et en Input: 


Parameters 


&ttributes : 


C Sepal length Sepal length 
C Sepal width Sepal width 
C Petal length Petal length 
C Petal width Petal width 

D Species 


Ensuite nous rajoutons le sélecteur Select first examples du groupe Instance selection: 


Off Dataset (Fisherlris,xls) 
G-Éÿ Define status 1 


a? | 


et dans les paramètres du sélecteur: 
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Off] Dataset (Fisheriris.xls) 
G-Éÿ Define status 1 


æ-# E 


Parameters.… 


Execute 


View 


Nous prenons les 60 premières lignes du fichier comme données d'entraînement (choix un peu 
arbitraire): 


Ensuite, nous rajoutons l'opérateur X-NN du groupe Spv Learning: 


D] Dataset (Fisherlris.xls) 
G-Æj Define status 1 
8-# Select first examples 1 
@- ossi, 


Supervised Learning 1 (K-NN) 


Aussi 


Ensuite, nous choisissons le type de distance et le nombre de k voisins pour l'apprentissage: 


g 


Parameters 


Neighborhood size: 5 


— Distance for continuous attributes 
©) HEOM (wilson-Martinez, JélR'97) 


© Euclidian 


Nous exécutons l'opérateur et nous avons alors: 
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Default title 


B-fE Dataset (Fisheriris.xls) 
SF} Define status 1 
ë-# Select first examples 1 
&-[#] Supervised Learning 1 {K-NN) 


Nous voyons que le classificateur est très bon. Pour avoir le détail, nous ajoutons l'opérateur 


A eus 
Classifier performances 


Eole OM 
Values prediction Confusion matrix 
| Value  Recall 1-Precision —————— —— 
l.virginica 1.0000  0.0244 4 
l.versicolor 0.9500  0.0000 1 19 LE 2 
l.setosa  0.0000 1.0000 LE 


Classifier characteristics 


Data description 


Target attribute Species (3 values) 
# descriptors 4 


TCalcSpvKNN 


View Data Set du groupe Data visualization: 


Arf Dataset (Fisherinis.xls] 


GP Define status 1 
B- À Select first examples 1 


B- D] ni Learning 1 {K-NN) 
5 View dataset 1 


et nous l'exécutons pour avoir les détails des prédictions (nous avons mis en évidence l'un 


deux ceux qui est mal prédit): 


a Diagram Component Window Help 


D | 


Default title 


G-fF Dataset (Fisheriris.xls) 
É-Æÿ Define status 1 
&-# Select first examples 1 
&- [9] Supenised Learning 1 (K-NN) 
FF View dataset 1 
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Maintenant injectons pour y mettre un jeu de test, nous remettons un opérateur de sélection 
Define Status: 


Off Dataset (Fisherlris.xls) 
G-Æ$ Define status 1 
G-# Select first examples 1 
S-D] Supervised Learning 1 (K-NNj 
fi View dataset 1 


ve EX Define status 2 


avec en Target: 


Parameters 


&ttributes : 


Target Input | Illustrative 
C Sepal length Species 
C Sepal width 
C Petal length 
C Petal width 
D Species 
D pred_Spvinstance_1 


Clear all Clear selected 


et en Input: 
Parameters 
&ttributes : 
agen] vet lusane 
C Sepal length Donne) 
C Sepal width 
C Petal length 
C Petal width 
D Species 
D pred_Spvinstance_1 
CALE | #| Clear selected 
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Ensuite, nous rajoutons l'opérateur Test du groupe Spy learning assessment (nous aurions pu 
faire la même chose pour la régression logistique mais ayant l'équation explicite c'était moins 
utile alors que là c'est très utile!): 


Of Dataset (Fisherlris,xls) 
G-F$ Define status 1 
B-# Select first examples 1 
G-[+] Superised Learning 1 (K-NN) 
L FF View dataset 1 
G- #à Define status 2 


et dans ses paramètres, nous avons: 


_ Define evaluation se 


Parameters 


- Used examples 


(©) Selected 


© Unselected 


Nous prenons Unselected ce qui prendra les 150-60=90 données restantes. 


Et nous exécutons pour obtenir: 


gere AN D Porameters 
g- Fi Define status 1 
ü-# Select first examples 1 


EE 
3 -balen JO predSpuimstaneet 
2-4 Define status 2 
Test 1 Crete Se 
Values prediction Confusion matrix 
| Value Recall 1-Precision _—— —- 


L. virginica 0,9000 0,1000 
1. versicolor 0,9667 0,6375 
I.setosa  0.0000 1.0000 


Et nous rajoutons un composant View Dataset pour voir comment les données de test (ou 
données nouvelles) sont classées: 
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G-fE Dataset (Fisherlris.xls) 
É-ÿ Define status 1 
&-# Select first examples 1 
&-] Supervised Learning 1 (K-NN) 
À] View dataset 1 


CERN [ferai 1engSepat viatpetal 1engretal viatspecies  [pred Spvinstance_1 


Define status 2 


Nous pouvons aussi rajouter un opérateur Train Test du groupe Spv learning assessment: 


O-ff] Dataset (Fisherlris.xls) 
GP Define status 1 
G-# Select first examples 1 
G-[»] Supervised Learning 1 (K-NNj 
; View dataset 1 
#à Define status 2 


Train-test parameters 


Parameters 


Proportion of train set: [04000 


Repetition ofassesment: 5 21 


Save results 


Save error rate to file 


[CiProgram Files X86)Tanagrate> =] 


et en exécutant l'opérateur, nous obtenons: 
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Of] Dataset (Fisherlris.xls) 
E-Rÿ Define status 1 
a # Select first examples 1 
E-{] Superised Learning 1 (K-NN) 
7 View dataset 1 
Rà Define status 2 
Ê EI Train-test 1 


Train-test parameters 
Train proportion 0,40 


Trials 5 


Dataset size : 150 
Tests error rate 


Trial Train size Test size Error rate 


1 60 90 0,0667 
2 60 90 0.0333 
3 é0 90 0.0222 
4 60 90 0.0222 
5 60 30 0.0556 


Overral test error rate 


Values prediction Confusion matrix 


l. virginica 0.9463 0,0662 
1. versicolor 0,9329 0.0544 
I.setosa  1.0000 0.0000 


Exercice 20.: Classificaiton K-Means: 


| File Diagram Component Window Help 


ELIE 


EF Dataset (Kieans.xls) 
E-#ÿ Define status 1 
B-l% K-eans 1 
FA] View dataset 1 
G-#%$ Define status 2 


:[M Group characterization 


Revenus SA Cluster_KMeans_1 


(X1) Surface vs. (X2) Revenus by (Y) Cluster_KMeans_1 


9 c_kmeans_1 4 c_kmeans_2 D c_kmeans_3 


Surface SA 


Components 


Ï Data visualization | Statistics 


Regression Factorial analysis 


Spv learning assessment | Scoring 


Nonparametric statistics | Instance selection | Feature construction | Feature selection 


PLS | Clustering | Spv learning | Meta-spv learning 
âssociation | 


EMExport dataset 

| ILE Scatterplot 

LE Scatterplot with label 
Fiview dataset 


| > Correlation scatterplot É: View multiple scatterplot 
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Nous mettons le composant Export Datasetdu groupe Data visulaziation en prenant bien 
soir de la mette après un sélecteur Define status: 


” FDataset (KMeans.xls) 
:.. 4 Define status 1 
[ee K-Means 1 
[View dataset 1 
i. 4 Define status 2 
[EI Group characterization 1 
EM Export dataset 1 


L£ Scatterplot 1 


Une fois que nous l'exécutons en faisant un double clic dessus, nous obtenons un fichier *.txt 
dans le dossier du fichier Tanagra: 


V'outputtt - Bloc-ne N EE) 


Fichier Edition Format Affichage 2 


vhservation Revenus Surface Cluster_KkMeans_1 
60 c_kmeans_1 
c_kmeans_2 
c_kmeans_1 
c_kmeans_1 
c_kmeans_2 
c_kmeans_2 
c_kmeans_2 
c_kmeans_2 
c_kmeans_1 
c_kmeans_2 
c_kmeans_3 
c_kmeans_2 
c_kmeans_1 
c_kmeans_3 
c_kmeans_1 
c_kmeans_3 
c_kmeans_2 
c_kmeans_3 
c_kmeans_1 
c_kmeans_1 
c_kmeans_3 
c_kmeans_3 
c_kmeans_3 
c_kmeans_1 


ODJnunEUN 


146/145 


CG Vincent ISOZ 


